Few-Shot Prompting: O Que É e Como Usar (Com 5 Exemplos em Português)
Few-shot prompting inclui exemplos de entrada e saída dentro do prompt, antes da tarefa real. Em vez de descrever o padrão, você mostra. 2 a 3 exemplos resolvem a maioria dos problemas de inconsistência de formato — acima de 5, o ganho é marginal e o custo de tokens cresce sem retorno proporcional.
Você escreve um prompt de classificação. Roda uma vez — funciona. Roda de novo — o formato da resposta mudou. Roda uma terceira — o modelo foi em outra direção completamente.
O problema quase sempre é o mesmo: o prompt descreve o que você quer, mas não mostra. Few-shot prompting resolve isso com exemplos diretamente no prompt. Não como documentação — como demonstração do padrão que o modelo deve seguir.
O que é few-shot prompting
Few-shot prompting é a técnica de incluir exemplos de entrada/saída no prompt, antes da tarefa real. O nome vem de "aprendizado com poucos exemplos" — cada "shot" é um par de demonstração.
- Zero-shot: sem exemplos. O modelo interpreta a instrução e responde.
- One-shot: um único exemplo antes da tarefa.
- Few-shot: dois a cinco exemplos antes da tarefa.
A diferença prática: zero-shot pede interpretação. Few-shot pede replicação. Para tarefas onde o formato importa — JSON, categorias fixas, tom específico — replicar um padrão mostrado é mais confiável do que interpretar uma instrução descrita.
O conceito foi documentado em escala pelo paper "Language Models are Few-Shot Learners" (Brown et al., NeurIPS 2020). Com GPT-3, alguns exemplos no prompt superavam modelos especializados em várias tarefas — não porque o modelo aprendeu algo novo, mas porque os exemplos ativaram o padrão certo dentro de um contexto claro.
Como funciona por dentro: in-context learning
Few-shot prompting é uma forma de in-context learning (ICL). O modelo não é retreinado. Os exemplos funcionam como contexto temporário — o modelo infere o padrão a partir deles e aplica na tarefa seguinte.
O que os exemplos sinalizam:
- Formato de saída: "a resposta deve ter esta estrutura"
- Granularidade: "este nível de detalhe é o esperado"
- Categorias permitidas: "os valores de saída são exatamente esses"
- Tom: "o estilo deve ser como nestes exemplos"
Uma descoberta contraintuitiva de Min et al. (2022): os rótulos nos exemplos importam menos do que a estrutura. O modelo se beneficia mais do padrão entrada/saída do que do conteúdo específico dos rótulos. Isso não justifica exemplos ruins — mas explica por que a consistência de formato é mais crítica do que a perfeição de conteúdo.
Para ver como few-shot se encaixa nas quatro decisões estruturais de um bom prompt, o guia completo de estrutura de prompts cobre cada elemento com exemplos antes/depois.
5 exemplos de few-shot prompting em português
Cada exemplo abaixo mostra a versão zero-shot e a versão few-shot. A diferença não é de qualidade de escrita — é de previsibilidade de formato.
1. Classificação de sentimento
Tarefa: classificar comentários de clientes como Positivo, Negativo ou Neutro.
Zero-shot — formato variável, às vezes inventa categorias:
Few-shot — formato garantido:
Avaliamos os dois prompts no PromptEval: o zero-shot marcou 61 (especificidade: 48, estrutura: 55). A versão com 2 exemplos subiu para 83 (especificidade: 87, estrutura: 82). O modelo não mudou — o prompt mudou.
2. Extração de dados em JSON
Tarefa: extrair informações de contato de textos não estruturados e retornar JSON com chaves consistentes.
3. Geração de texto com tom específico
Tarefa: respostas de suporte ao cliente sem linguagem corporativa e sem frases prontas.
4. Formatação de bullets para landing page
Tarefa: transformar features de produto em bullet points com estrutura fixa — emoji + benefício em até 8 palavras + explicação em uma frase.
5. Categorização de feedback de produto
Tarefa: categorizar feedbacks em temas definidos para o time de produto, sem interpretação livre do modelo.
Para tarefas repetitivas — classificação de suporte, moderação de conteúdo, extração de dados — esses 5 padrões cobrem a maioria dos casos. O princípio é sempre o mesmo: mostre o padrão, não descreva.
Quando usar few-shot prompting — e quando não usar
O erro mais comum é adicionar exemplos por padrão. Few-shot ocupa tokens. Quando o zero-shot já funciona, exemplos são custo sem retorno.
| Situação | Few-shot? | Por quê |
|---|---|---|
| Classificação com categorias fixas | ✅ Sim | 2–3 exemplos fixam o padrão de saída sem ambiguidade |
| Extração de dados em JSON ou CSV | ✅ Sim | Exemplos eliminam dúvidas sobre chaves e estrutura |
| Geração com tom ou estilo específico | ✅ Sim | O modelo imita o estilo — mais eficaz que instrução de tom |
| Tarefa criativa aberta | ❌ Não | Exemplos limitam criatividade e clonam o padrão mostrado |
| Raciocínio lógico complexo | ⚠️ Use CoT | Few-shot padrão não melhora raciocínio; prefira chain-of-thought |
| Modelos de raciocínio (o1, Claude 3.7) | ⚠️ Cuidado | Pesquisa da OpenAI mostra que esses modelos frequentemente performam pior com exemplos |
| Zero-shot já funciona consistentemente | ❌ Não | Exemplos adicionam tokens e custo sem benefício real |
| Prompt ultrapassando 4k tokens | ⚠️ Avaliar | Custo de tokens pode superar o benefício em chamadas de alto volume |
O custo real de tokens que quase ninguém calcula
Cada exemplo no prompt tem um preço. Se você usa GPT-4o a $5/M tokens de input e adiciona 3 exemplos de ~150 tokens cada, o prompt cresce ~450 tokens por chamada.
Em 10.000 chamadas mensais: 450 × 10.000 = 4,5M tokens extras. A $5/M tokens = $22,50/mês adicionais. Em 100.000 chamadas mensais, são $225/mês só pelos exemplos.
O custo é real. A pergunta é: o ganho de consistência justifica? Para tarefas onde erro tem custo alto — classificação de suporte, extração de dados para banco — sim. Para tarefas onde zero-shot já entrega consistência suficiente, não.
A regra prática: teste zero-shot primeiro. Se o resultado variar em mais de 3 a cada 10 tentativas, adicione exemplos e meça de novo. Não use few-shot como padrão.
O erro que destrói o resultado: exemplos ruins
Adicionar exemplos não é garantia de melhora. Exemplos ambíguos, inconsistentes ou que não representam a tarefa real ensinam o padrão errado — e o modelo vai segui-lo fielmente.
Dois vieses documentados que aparecem com exemplos mal selecionados:
- Recency bias: o modelo dá mais peso aos últimos exemplos. Se os primeiros são ruins e o último é bom, o resultado fica instável dependendo da ordem.
- Majority label bias: se 4 dos seus 5 exemplos são da categoria "Positivo", o modelo vai favorecer essa categoria — mesmo quando o input correto é "Negativo".
Quatro critérios para exemplos que funcionam:
- Representam a distribuição real da tarefa — não só os casos fáceis ou mais comuns
- Têm formato consistente entre si — mesma estrutura de output em todos os exemplos
- Incluem categorias diferentes quando a tarefa tem múltiplas classes possíveis
- São diversificados em contexto — exemplos muito similares ensinam um padrão estreito demais
Few-shot + chain-of-thought: quando combinar as duas técnicas
Few-shot e chain-of-thought prompting não são técnicas concorrentes. Você pode incluir, em cada exemplo, o raciocínio passo a passo antes da resposta.
Em vez de mostrar só "entrada → saída", você mostra "entrada → raciocínio → saída". Isso ajuda especialmente em classificação onde a decisão depende de lógica não-óbvia:
A diferença em relação ao few-shot padrão: o modelo não apenas copia o formato de saída — ele replica o processo de raciocínio. Para entender quando e como usar CoT, veja o guia de chain-of-thought prompting.
Como medir se o few-shot realmente melhorou o prompt
Intuição não é dado. "Parece melhor" é o tipo de análise que faz prompts quebrarem em produção três semanas depois.
O que medir depois de adicionar exemplos:
- Consistência de formato: rode o mesmo prompt 10 vezes com o mesmo input. Quantos outputs têm a estrutura esperada?
- Acurácia em casos conhecidos: se você tem inputs com resposta correta definida, compare o resultado da versão zero-shot e da few-shot nesses inputs
- Score por dimensão: o PromptEval avalia o prompt nas dimensões de clareza, especificidade, estrutura e robustez — e mostra exatamente onde a versão few-shot melhorou e onde ainda há gap
Você montou um prompt few-shot. Veja o score exato que ele recebe.
O PromptEval avalia gratuitamente — mostra as 4 dimensões e aponta o que ainda falta antes de ir para produção. 3 créditos, sem cartão de crédito.
Avaliar meu prompt →Perguntas frequentes sobre few-shot prompting
O que é few-shot prompting?
Few-shot prompting é a técnica de incluir exemplos de entrada e saída dentro do prompt, antes da tarefa real. Em vez de descrever o padrão esperado, você mostra. 2 a 5 exemplos são suficientes para a maioria das tarefas — acima disso, o retorno começa a cair.
Quantos exemplos usar em few-shot prompting?
Entre 2 e 5. Pesquisa empírica mostra que o ganho de desempenho estabiliza após 4 a 5 exemplos na maioria das tarefas. Mais de 8 raramente traz benefício adicional e aumenta o custo de tokens sem melhora proporcional na qualidade.
Few-shot prompting funciona com Claude e GPT-4o?
Sim, com qualquer modelo de grande escala — Claude 3.5 Sonnet, GPT-4o, Gemini 1.5 Pro, Llama 3. A exceção são modelos de raciocínio como o1 e Claude 3.7 Sonnet com Extended Thinking: pesquisa da OpenAI documenta que esses modelos frequentemente performam pior com exemplos, porque o raciocínio interno já está embutido e os exemplos podem interferir nesse processo.
Qual a diferença entre few-shot prompting e fine-tuning?
Fine-tuning retreina o modelo com seus dados — é permanente e tem custo de treinamento. Few-shot prompting usa exemplos como contexto em cada chamada — sem treinamento, imediato, reversível. Few-shot é o ponto de partida certo; fine-tuning faz sentido quando o volume de chamadas é alto, os exemplos são estáveis e o custo de tokens dos exemplos supera o custo de treinamento.
Few-shot prompting e chain-of-thought podem ser usados juntos?
Sim. Few-shot com chain-of-thought significa incluir, em cada exemplo, o raciocínio passo a passo antes da resposta final. É a abordagem mais eficaz para tarefas de classificação complexa onde a decisão depende de lógica que não está óbvia no padrão superficial de entrada/saída.
Score your prompts before they hit production
PromptEval scores prompts 0–100 across 4 dimensions — clarity, structure, context, and output spec — and tells you exactly what to fix.
Try free →