PromptEval/Blog
29 de maio de 2026·Francisco Ferreira·8 min de leitura

Few-Shot Prompting: O Que É e Como Usar (Com 5 Exemplos em Português)

Resposta Rápida

Few-shot prompting inclui exemplos de entrada e saída dentro do prompt, antes da tarefa real. Em vez de descrever o padrão, você mostra. 2 a 3 exemplos resolvem a maioria dos problemas de inconsistência de formato — acima de 5, o ganho é marginal e o custo de tokens cresce sem retorno proporcional.

Você escreve um prompt de classificação. Roda uma vez — funciona. Roda de novo — o formato da resposta mudou. Roda uma terceira — o modelo foi em outra direção completamente.

O problema quase sempre é o mesmo: o prompt descreve o que você quer, mas não mostra. Few-shot prompting resolve isso com exemplos diretamente no prompt. Não como documentação — como demonstração do padrão que o modelo deve seguir.

O que é few-shot prompting

Few-shot prompting é a técnica de incluir exemplos de entrada/saída no prompt, antes da tarefa real. O nome vem de "aprendizado com poucos exemplos" — cada "shot" é um par de demonstração.

  • Zero-shot: sem exemplos. O modelo interpreta a instrução e responde.
  • One-shot: um único exemplo antes da tarefa.
  • Few-shot: dois a cinco exemplos antes da tarefa.

A diferença prática: zero-shot pede interpretação. Few-shot pede replicação. Para tarefas onde o formato importa — JSON, categorias fixas, tom específico — replicar um padrão mostrado é mais confiável do que interpretar uma instrução descrita.

O conceito foi documentado em escala pelo paper "Language Models are Few-Shot Learners" (Brown et al., NeurIPS 2020). Com GPT-3, alguns exemplos no prompt superavam modelos especializados em várias tarefas — não porque o modelo aprendeu algo novo, mas porque os exemplos ativaram o padrão certo dentro de um contexto claro.

Como funciona por dentro: in-context learning

Few-shot prompting é uma forma de in-context learning (ICL). O modelo não é retreinado. Os exemplos funcionam como contexto temporário — o modelo infere o padrão a partir deles e aplica na tarefa seguinte.

O que os exemplos sinalizam:

  • Formato de saída: "a resposta deve ter esta estrutura"
  • Granularidade: "este nível de detalhe é o esperado"
  • Categorias permitidas: "os valores de saída são exatamente esses"
  • Tom: "o estilo deve ser como nestes exemplos"

Uma descoberta contraintuitiva de Min et al. (2022): os rótulos nos exemplos importam menos do que a estrutura. O modelo se beneficia mais do padrão entrada/saída do que do conteúdo específico dos rótulos. Isso não justifica exemplos ruins — mas explica por que a consistência de formato é mais crítica do que a perfeição de conteúdo.

Para ver como few-shot se encaixa nas quatro decisões estruturais de um bom prompt, o guia completo de estrutura de prompts cobre cada elemento com exemplos antes/depois.

5 exemplos de few-shot prompting em português

Cada exemplo abaixo mostra a versão zero-shot e a versão few-shot. A diferença não é de qualidade de escrita — é de previsibilidade de formato.

1. Classificação de sentimento

Tarefa: classificar comentários de clientes como Positivo, Negativo ou Neutro.

Zero-shot — formato variável, às vezes inventa categorias:

Classifique o sentimento deste comentário. Comentário: "A entrega atrasou 3 dias e ninguém me avisou. Muito decepcionante."

Few-shot — formato garantido:

Classifique o sentimento de comentários de clientes. Use exatamente uma destas categorias: Positivo, Negativo, Neutro. Comentário: "O produto chegou antes do prazo e a embalagem estava perfeita." Sentimento: Positivo Comentário: "Preço médio, entrega no prazo. Nada de especial." Sentimento: Neutro Comentário: "A entrega atrasou 3 dias e ninguém me avisou. Muito decepcionante." Sentimento:

Avaliamos os dois prompts no PromptEval: o zero-shot marcou 61 (especificidade: 48, estrutura: 55). A versão com 2 exemplos subiu para 83 (especificidade: 87, estrutura: 82). O modelo não mudou — o prompt mudou.

2. Extração de dados em JSON

Tarefa: extrair informações de contato de textos não estruturados e retornar JSON com chaves consistentes.

Extraia informações de contato e retorne em JSON com as chaves: nome, email, telefone. Texto: "Fale com João Costa em jcosta@tech.com.br ou ligue para 21 99876-5432." JSON: {"nome": "João Costa", "email": "jcosta@tech.com.br", "telefone": "21 99876-5432"} Texto: "Contato comercial: Ana Beatriz (abeatriz@marketing.io) — WhatsApp 11 91234-5678." JSON: {"nome": "Ana Beatriz", "email": "abeatriz@marketing.io", "telefone": "11 91234-5678"} Texto: "Entre em contato com Maria Silva pelo e-mail msilva@empresa.com ou pelo telefone 11 98765-4321." JSON:

3. Geração de texto com tom específico

Tarefa: respostas de suporte ao cliente sem linguagem corporativa e sem frases prontas.

Você é atendente de suporte de e-commerce. Responda de forma direta e empática, sem frases prontas. Cliente: "Meu pedido foi cancelado sem aviso. Que absurdo!" Resposta: "Entendo — receber um cancelamento inesperado é péssimo. Qual é o número do pedido? Vou verificar agora." Cliente: "O produto veio com defeito. Quero meu dinheiro de volta." Resposta: "Não é o que deveria ter acontecido. Vou iniciar o reembolso agora. Pode enviar uma foto do defeito para agilizar?" Cliente: "Comprei ontem e não recebi nenhuma confirmação. O pedido foi feito?" Resposta:

4. Formatação de bullets para landing page

Tarefa: transformar features de produto em bullet points com estrutura fixa — emoji + benefício em até 8 palavras + explicação em uma frase.

Transforme features em bullets para landing page. Formato: [emoji] [benefício em até 8 palavras] — [explicação em uma frase] Feature: "Relatórios exportáveis em CSV e PDF" Bullet: 📊 Exporte relatórios com um clique — CSV ou PDF, sempre atualizado. Feature: "Suporte 24/7 por chat" Bullet: 💬 Suporte disponível a qualquer hora — resposta em menos de 2 minutos. Feature: "Integração com Slack e Teams" Bullet:

5. Categorização de feedback de produto

Tarefa: categorizar feedbacks em temas definidos para o time de produto, sem interpretação livre do modelo.

Categorize feedbacks de produto. Categorias possíveis: UX, Performance, Preço, Suporte, Feature Request. Feedback: "O botão de salvar sumiu depois da última atualização." Categoria: UX Feedback: "Fica travando quando tenho mais de 50 itens na lista." Categoria: Performance Feedback: "Seria ótimo poder exportar para Excel." Categoria: Feature Request Feedback: "O plano básico é caro demais para o que entrega." Categoria:

Para tarefas repetitivas — classificação de suporte, moderação de conteúdo, extração de dados — esses 5 padrões cobrem a maioria dos casos. O princípio é sempre o mesmo: mostre o padrão, não descreva.

Quando usar few-shot prompting — e quando não usar

O erro mais comum é adicionar exemplos por padrão. Few-shot ocupa tokens. Quando o zero-shot já funciona, exemplos são custo sem retorno.

Situação Few-shot? Por quê
Classificação com categorias fixas ✅ Sim 2–3 exemplos fixam o padrão de saída sem ambiguidade
Extração de dados em JSON ou CSV ✅ Sim Exemplos eliminam dúvidas sobre chaves e estrutura
Geração com tom ou estilo específico ✅ Sim O modelo imita o estilo — mais eficaz que instrução de tom
Tarefa criativa aberta ❌ Não Exemplos limitam criatividade e clonam o padrão mostrado
Raciocínio lógico complexo ⚠️ Use CoT Few-shot padrão não melhora raciocínio; prefira chain-of-thought
Modelos de raciocínio (o1, Claude 3.7) ⚠️ Cuidado Pesquisa da OpenAI mostra que esses modelos frequentemente performam pior com exemplos
Zero-shot já funciona consistentemente ❌ Não Exemplos adicionam tokens e custo sem benefício real
Prompt ultrapassando 4k tokens ⚠️ Avaliar Custo de tokens pode superar o benefício em chamadas de alto volume

O custo real de tokens que quase ninguém calcula

Cada exemplo no prompt tem um preço. Se você usa GPT-4o a $5/M tokens de input e adiciona 3 exemplos de ~150 tokens cada, o prompt cresce ~450 tokens por chamada.

Em 10.000 chamadas mensais: 450 × 10.000 = 4,5M tokens extras. A $5/M tokens = $22,50/mês adicionais. Em 100.000 chamadas mensais, são $225/mês só pelos exemplos.

O custo é real. A pergunta é: o ganho de consistência justifica? Para tarefas onde erro tem custo alto — classificação de suporte, extração de dados para banco — sim. Para tarefas onde zero-shot já entrega consistência suficiente, não.

A regra prática: teste zero-shot primeiro. Se o resultado variar em mais de 3 a cada 10 tentativas, adicione exemplos e meça de novo. Não use few-shot como padrão.

O erro que destrói o resultado: exemplos ruins

Adicionar exemplos não é garantia de melhora. Exemplos ambíguos, inconsistentes ou que não representam a tarefa real ensinam o padrão errado — e o modelo vai segui-lo fielmente.

Dois vieses documentados que aparecem com exemplos mal selecionados:

  • Recency bias: o modelo dá mais peso aos últimos exemplos. Se os primeiros são ruins e o último é bom, o resultado fica instável dependendo da ordem.
  • Majority label bias: se 4 dos seus 5 exemplos são da categoria "Positivo", o modelo vai favorecer essa categoria — mesmo quando o input correto é "Negativo".

Quatro critérios para exemplos que funcionam:

  1. Representam a distribuição real da tarefa — não só os casos fáceis ou mais comuns
  2. Têm formato consistente entre si — mesma estrutura de output em todos os exemplos
  3. Incluem categorias diferentes quando a tarefa tem múltiplas classes possíveis
  4. São diversificados em contexto — exemplos muito similares ensinam um padrão estreito demais

Few-shot + chain-of-thought: quando combinar as duas técnicas

Few-shot e chain-of-thought prompting não são técnicas concorrentes. Você pode incluir, em cada exemplo, o raciocínio passo a passo antes da resposta.

Em vez de mostrar só "entrada → saída", você mostra "entrada → raciocínio → saída". Isso ajuda especialmente em classificação onde a decisão depende de lógica não-óbvia:

Classifique a urgência deste ticket de suporte: Alta, Média ou Baixa. Ticket: "O sistema de pagamento não funciona. Nenhuma venda está sendo processada." Raciocínio: Afeta receita diretamente. Sem workaround. Todos os usuários impactados. Urgência: Alta Ticket: "O botão exportar está demorando mais de 30 segundos." Raciocínio: Funcional com workaround (download manual). Impacto limitado a um step. Urgência: Média Ticket: "A fonte dos títulos mudou depois da última atualização." Urgência:

A diferença em relação ao few-shot padrão: o modelo não apenas copia o formato de saída — ele replica o processo de raciocínio. Para entender quando e como usar CoT, veja o guia de chain-of-thought prompting.

Como medir se o few-shot realmente melhorou o prompt

Intuição não é dado. "Parece melhor" é o tipo de análise que faz prompts quebrarem em produção três semanas depois.

O que medir depois de adicionar exemplos:

  • Consistência de formato: rode o mesmo prompt 10 vezes com o mesmo input. Quantos outputs têm a estrutura esperada?
  • Acurácia em casos conhecidos: se você tem inputs com resposta correta definida, compare o resultado da versão zero-shot e da few-shot nesses inputs
  • Score por dimensão: o PromptEval avalia o prompt nas dimensões de clareza, especificidade, estrutura e robustez — e mostra exatamente onde a versão few-shot melhorou e onde ainda há gap

Você montou um prompt few-shot. Veja o score exato que ele recebe.

O PromptEval avalia gratuitamente — mostra as 4 dimensões e aponta o que ainda falta antes de ir para produção. 3 créditos, sem cartão de crédito.

Avaliar meu prompt →

Perguntas frequentes sobre few-shot prompting

O que é few-shot prompting?

Few-shot prompting é a técnica de incluir exemplos de entrada e saída dentro do prompt, antes da tarefa real. Em vez de descrever o padrão esperado, você mostra. 2 a 5 exemplos são suficientes para a maioria das tarefas — acima disso, o retorno começa a cair.

Quantos exemplos usar em few-shot prompting?

Entre 2 e 5. Pesquisa empírica mostra que o ganho de desempenho estabiliza após 4 a 5 exemplos na maioria das tarefas. Mais de 8 raramente traz benefício adicional e aumenta o custo de tokens sem melhora proporcional na qualidade.

Few-shot prompting funciona com Claude e GPT-4o?

Sim, com qualquer modelo de grande escala — Claude 3.5 Sonnet, GPT-4o, Gemini 1.5 Pro, Llama 3. A exceção são modelos de raciocínio como o1 e Claude 3.7 Sonnet com Extended Thinking: pesquisa da OpenAI documenta que esses modelos frequentemente performam pior com exemplos, porque o raciocínio interno já está embutido e os exemplos podem interferir nesse processo.

Qual a diferença entre few-shot prompting e fine-tuning?

Fine-tuning retreina o modelo com seus dados — é permanente e tem custo de treinamento. Few-shot prompting usa exemplos como contexto em cada chamada — sem treinamento, imediato, reversível. Few-shot é o ponto de partida certo; fine-tuning faz sentido quando o volume de chamadas é alto, os exemplos são estáveis e o custo de tokens dos exemplos supera o custo de treinamento.

Few-shot prompting e chain-of-thought podem ser usados juntos?

Sim. Few-shot com chain-of-thought significa incluir, em cada exemplo, o raciocínio passo a passo antes da resposta final. É a abordagem mais eficaz para tarefas de classificação complexa onde a decisão depende de lógica que não está óbvia no padrão superficial de entrada/saída.

Score your prompts before they hit production

PromptEval scores prompts 0–100 across 4 dimensions — clarity, structure, context, and output spec — and tells you exactly what to fix.

Try free →