29 de maio de 2026·Francisco Ferreira·8 min de leitura

Few-Shot Prompting: O Que É e Como Usar (Com 5 Exemplos em Português)

Resposta Rápida

Few-shot prompting inclui exemplos de entrada e saída dentro do prompt, antes da tarefa real. Em vez de descrever o padrão, você mostra. 2 a 3 exemplos resolvem a maioria dos problemas de inconsistência de formato. Acima de 5, o ganho é marginal e o custo de tokens cresce sem retorno proporcional.

Você escreve um prompt de classificação. Roda uma vez, funciona. Roda de novo, o formato da resposta mudou. Roda uma terceira, o modelo foi em outra direção completamente.

O problema quase sempre é o mesmo: o prompt descreve o que você quer, mas não mostra. Few-shot prompting resolve isso com exemplos diretamente no prompt. Não como documentação, como demonstração do padrão que o modelo deve seguir.

O que é few-shot prompting

Few-shot prompting é a técnica de incluir exemplos de entrada/saída no prompt, antes da tarefa real. O nome vem de "aprendizado com poucos exemplos", cada "shot" é um par de demonstração.

Zero-shot: sem exemplos. O modelo interpreta a instrução e responde.
One-shot: um único exemplo antes da tarefa.
Few-shot: dois a cinco exemplos antes da tarefa.

A diferença prática: zero-shot pede interpretação. Few-shot pede replicação. Para tarefas onde o formato importa, JSON, categorias fixas, tom específico, replicar um padrão mostrado é mais confiável do que interpretar uma instrução descrita.

O conceito foi documentado em escala pelo paper "Language Models are Few-Shot Learners" (Brown et al., NeurIPS 2020). Com GPT-3, alguns exemplos no prompt superavam modelos especializados em várias tarefas. Não porque o modelo aprendeu algo novo, mas porque os exemplos ativaram o padrão certo dentro de um contexto claro.

Como funciona por dentro: in-context learning

Few-shot prompting é uma forma de in-context learning (ICL). O modelo não é retreinado. Os exemplos funcionam como contexto temporário. O modelo infere o padrão a partir deles e aplica na tarefa seguinte.

O que os exemplos sinalizam:

Formato de saída: "a resposta deve ter esta estrutura"
Granularidade: "este nível de detalhe é o esperado"
Categorias permitidas: "os valores de saída são exatamente esses"
Tom: "o estilo deve ser como nestes exemplos"

Uma descoberta contraintuitiva de Min et al. (2022): os rótulos nos exemplos importam menos do que a estrutura. O modelo se beneficia mais do padrão entrada/saída do que do conteúdo específico dos rótulos. Isso não justifica exemplos ruins. Mas explica por que a consistência de formato é mais crítica do que a perfeição de conteúdo.

Para ver como few-shot se encaixa nas quatro decisões estruturais de um bom prompt, o guia completo de estrutura de prompts cobre cada elemento com exemplos antes/depois.

5 exemplos de few-shot prompting em português

Cada exemplo abaixo mostra a versão zero-shot e a versão few-shot. A diferença não é de qualidade de escrita, é de previsibilidade de formato.

1. Classificação de sentimento

Tarefa: classificar comentários de clientes como Positivo, Negativo ou Neutro.

Zero-shot, formato variável, às vezes inventa categorias:

Classifique o sentimento deste comentário.

Comentário: "A entrega atrasou 3 dias e ninguém me avisou. Muito decepcionante."

Few-shot, formato garantido:

Classifique o sentimento de comentários de clientes. Use exatamente uma destas categorias: Positivo, Negativo, Neutro.

Comentário: "O produto chegou antes do prazo e a embalagem estava perfeita."
Sentimento: Positivo

Comentário: "Preço médio, entrega no prazo. Nada de especial."
Sentimento: Neutro

Comentário: "A entrega atrasou 3 dias e ninguém me avisou. Muito decepcionante."
Sentimento:

Avaliamos os dois prompts no PromptEval: o zero-shot marcou 61 (especificidade: 48, estrutura: 55). A versão com 2 exemplos subiu para 83 (especificidade: 87, estrutura: 82). O modelo não mudou, o prompt mudou.

2. Extração de dados em JSON

Tarefa: extrair informações de contato de textos não estruturados e retornar JSON com chaves consistentes.

Extraia informações de contato e retorne em JSON com as chaves: nome, email, telefone.

Texto: "Fale com João Costa em jcosta@tech.com.br ou ligue para 21 99876-5432."
JSON: {"nome": "João Costa", "email": "jcosta@tech.com.br", "telefone": "21 99876-5432"}

Texto: "Contato comercial: Ana Beatriz (abeatriz@marketing.io), WhatsApp 11 91234-5678."
JSON: {"nome": "Ana Beatriz", "email": "abeatriz@marketing.io", "telefone": "11 91234-5678"}

Texto: "Entre em contato com Maria Silva pelo e-mail msilva@empresa.com ou pelo telefone 11 98765-4321."
JSON:

3. Geração de texto com tom específico

Tarefa: respostas de suporte ao cliente sem linguagem corporativa e sem frases prontas.

Você é atendente de suporte de e-commerce. Responda de forma direta e empática, sem frases prontas.

Cliente: "Meu pedido foi cancelado sem aviso. Que absurdo!"
Resposta: "Entendo, receber um cancelamento inesperado é péssimo. Qual é o número do pedido? Vou verificar agora."

Cliente: "O produto veio com defeito. Quero meu dinheiro de volta."
Resposta: "Não é o que deveria ter acontecido. Vou iniciar o reembolso agora. Pode enviar uma foto do defeito para agilizar?"

Cliente: "Comprei ontem e não recebi nenhuma confirmação. O pedido foi feito?"
Resposta:

4. Formatação de bullets para landing page

Tarefa: transformar features de produto em bullet points com estrutura fixa. Emoji + benefício em até 8 palavras + explicação em uma frase.

Transforme features em bullets para landing page. Formato: [emoji] [benefício em até 8 palavras]. [Explicação em uma frase]

Feature: "Relatórios exportáveis em CSV e PDF"
Bullet: 📊 Exporte relatórios com um clique, CSV ou PDF, sempre atualizado.

Feature: "Suporte 24/7 por chat"
Bullet: 💬 Suporte disponível a qualquer hora, resposta em menos de 2 minutos.

Feature: "Integração com Slack e Teams"
Bullet:

5. Categorização de feedback de produto

Tarefa: categorizar feedbacks em temas definidos para o time de produto, sem interpretação livre do modelo.

Categorize feedbacks de produto. Categorias possíveis: UX, Performance, Preço, Suporte, Feature Request.

Feedback: "O botão de salvar sumiu depois da última atualização."
Categoria: UX

Feedback: "Fica travando quando tenho mais de 50 itens na lista."
Categoria: Performance

Feedback: "Seria ótimo poder exportar para Excel."
Categoria: Feature Request

Feedback: "O plano básico é caro demais para o que entrega."
Categoria:

Para tarefas repetitivas, classificação de suporte, moderação de conteúdo, extração de dados, esses 5 padrões cobrem a maioria dos casos. O princípio é sempre o mesmo: mostre o padrão, não descreva.

Quando usar few-shot prompting, e quando não usar

O erro mais comum é adicionar exemplos por padrão. Few-shot ocupa tokens. Quando o zero-shot já funciona, exemplos são custo sem retorno.

Situação	Few-shot?	Por quê
Classificação com categorias fixas	✅ Sim	2–3 exemplos fixam o padrão de saída sem ambiguidade
Extração de dados em JSON ou CSV	✅ Sim	Exemplos eliminam dúvidas sobre chaves e estrutura
Geração com tom ou estilo específico	✅ Sim	O modelo imita o estilo, mais eficaz que instrução de tom
Tarefa criativa aberta	❌ Não	Exemplos limitam criatividade e clonam o padrão mostrado
Raciocínio lógico complexo	⚠️ Use CoT	Few-shot padrão não melhora raciocínio; prefira chain-of-thought
Modelos de raciocínio (o1, Claude 3.7)	⚠️ Cuidado	Pesquisa da OpenAI mostra que esses modelos frequentemente performam pior com exemplos
Zero-shot já funciona consistentemente	❌ Não	Exemplos adicionam tokens e custo sem benefício real
Prompt ultrapassando 4k tokens	⚠️ Avaliar	Custo de tokens pode superar o benefício em chamadas de alto volume

O custo real de tokens que quase ninguém calcula

Cada exemplo no prompt tem um preço. Se você usa GPT-4o a $5/M tokens de input e adiciona 3 exemplos de ~150 tokens cada, o prompt cresce ~450 tokens por chamada.

Em 10.000 chamadas mensais: 450 × 10.000 = 4,5M tokens extras. A $5/M tokens = $22,50/mês adicionais. Em 100.000 chamadas mensais, são $225/mês só pelos exemplos.

O custo é real. A pergunta é: o ganho de consistência justifica? Para tarefas onde erro tem custo alto, classificação de suporte, extração de dados para banco, sim. Para tarefas onde zero-shot já entrega consistência suficiente, não.

A regra prática: teste zero-shot primeiro. Se o resultado variar em mais de 3 a cada 10 tentativas, adicione exemplos e meça de novo. Não use few-shot como padrão.

O erro que destrói o resultado: exemplos ruins

Adicionar exemplos não é garantia de melhora. Exemplos ambíguos, inconsistentes ou que não representam a tarefa real ensinam o padrão errado, e o modelo vai segui-lo fielmente.

Dois vieses documentados que aparecem com exemplos mal selecionados:

Recency bias: o modelo dá mais peso aos últimos exemplos. Se os primeiros são ruins e o último é bom, o resultado fica instável dependendo da ordem.
Majority label bias: se 4 dos seus 5 exemplos são da categoria "Positivo", o modelo vai favorecer essa categoria, mesmo quando o input correto é "Negativo".

Quatro critérios para exemplos que funcionam:

Representam a distribuição real da tarefa, não só os casos fáceis ou mais comuns
Têm formato consistente entre si, mesma estrutura de output em todos os exemplos
Incluem categorias diferentes quando a tarefa tem múltiplas classes possíveis
São diversificados em contexto. Exemplos muito similares ensinam um padrão estreito demais

Few-shot + chain-of-thought: quando combinar as duas técnicas

Few-shot e chain-of-thought prompting não são técnicas concorrentes. Você pode incluir, em cada exemplo, o raciocínio passo a passo antes da resposta.

Em vez de mostrar só "entrada → saída", você mostra "entrada → raciocínio → saída". Isso ajuda especialmente em classificação onde a decisão depende de lógica não-óbvia:

Classifique a urgência deste ticket de suporte: Alta, Média ou Baixa.

Ticket: "O sistema de pagamento não funciona. Nenhuma venda está sendo processada."
Raciocínio: Afeta receita diretamente. Sem workaround. Todos os usuários impactados.
Urgência: Alta

Ticket: "O botão exportar está demorando mais de 30 segundos."
Raciocínio: Funcional com workaround (download manual). Impacto limitado a um step.
Urgência: Média

Ticket: "A fonte dos títulos mudou depois da última atualização."
Urgência:

A diferença em relação ao few-shot padrão: o modelo não apenas copia o formato de saída, ele replica o processo de raciocínio. Para entender quando e como usar CoT, veja o guia de chain-of-thought prompting.

Como medir se o few-shot realmente melhorou o prompt

Intuição não é dado. "Parece melhor" é o tipo de análise que faz prompts quebrarem em produção três semanas depois.

O que medir depois de adicionar exemplos:

Consistência de formato: rode o mesmo prompt 10 vezes com o mesmo input. Quantos outputs têm a estrutura esperada?
Acurácia em casos conhecidos: se você tem inputs com resposta correta definida, compare o resultado da versão zero-shot e da few-shot nesses inputs
Score por dimensão: o PromptEval avalia o prompt nas dimensões de clareza, especificidade, estrutura e robustez. E mostra exatamente onde a versão few-shot melhorou e onde ainda há gap

Você montou um prompt few-shot. Veja o score exato que ele recebe.

O PromptEval avalia gratuitamente. Mostra as 4 dimensões e aponta o que ainda falta antes de ir para produção. 3 créditos, sem cartão de crédito.

Avaliar meu prompt →

Perguntas frequentes sobre few-shot prompting

O que é few-shot prompting?

Few-shot prompting é a técnica de incluir exemplos de entrada e saída dentro do prompt, antes da tarefa real. Em vez de descrever o padrão esperado, você mostra. 2 a 5 exemplos são suficientes para a maioria das tarefas, acima disso, o retorno começa a cair.

Quantos exemplos usar em few-shot prompting?

Entre 2 e 5. Pesquisa empírica mostra que o ganho de desempenho estabiliza após 4 a 5 exemplos na maioria das tarefas. Mais de 8 raramente traz benefício adicional e aumenta o custo de tokens sem melhora proporcional na qualidade.

Few-shot prompting funciona com Claude e GPT-4o?

Sim, com qualquer modelo de grande escala, Claude 3.5 Sonnet, GPT-4o, Gemini 1.5 Pro, Llama 3. A exceção são modelos de raciocínio como o1 e Claude 3.7 Sonnet com Extended Thinking: pesquisa da OpenAI documenta que esses modelos frequentemente performam pior com exemplos, porque o raciocínio interno já está embutido e os exemplos podem interferir nesse processo.

Qual a diferença entre few-shot prompting e fine-tuning?

Fine-tuning retreina o modelo com seus dados, é permanente e tem custo de treinamento. Few-shot prompting usa exemplos como contexto em cada chamada, sem treinamento, imediato, reversível. Few-shot é o ponto de partida certo; fine-tuning faz sentido quando o volume de chamadas é alto, os exemplos são estáveis e o custo de tokens dos exemplos supera o custo de treinamento.

Few-shot prompting e chain-of-thought podem ser usados juntos?

Sim. Few-shot com chain-of-thought significa incluir, em cada exemplo, o raciocínio passo a passo antes da resposta final. É a abordagem mais eficaz para tarefas de classificação complexa onde a decisão depende de lógica que não está óbvia no padrão superficial de entrada/saída.

Mais artigos

Relatório de Qualidade de Prompts: O Que 1.000 Prompts Avaliados Revelam (2026)

2026-07-07 · 8 min de leitura

Melhores Ferramentas para Otimizar Prompts de IA em 2026

2026-06-30 · 11 min de leitura

Alternativas ao PromptPerfect em 2026 (Depois da Aquisição pela Elastic)

2026-06-29 · 9 min de leitura

Avalie seus prompts antes de ir para produção

PromptEval pontua prompts de 0–100 em 4 dimensões — clareza, estrutura, contexto e especificação de saída.

Testar grátis →