PromptEval/Blog
29 de maio de 2026·Francisco Ferreira·9 min de leitura

Chain of Thought Prompting: Como Fazer o Modelo Raciocinar Antes de Responder

Resposta Rápida

Chain of thought prompting é a instrução explícita para que o modelo raciocine em etapas antes de responder. A instrução mais simples — "Pense passo a passo antes de responder" — funciona em Claude e GPT-4o sem configuração adicional. Use em análise com múltiplas variáveis e classificação complexa. Não use em geração direta de texto: emails, títulos ou sumários curtos.

O modelo recebe uma pergunta de análise e responde em dois segundos. A resposta parece coerente. Você implementa. Três dias depois descobre que o modelo pulou um passo crítico e chegou à conclusão errada pelo caminho errado — e porque o raciocínio não estava explícito, você não tinha como detectar onde a análise quebrou.

Chain of thought prompting resolve isso com uma mudança estrutural: em vez de produzir a resposta diretamente, o modelo é instruído a mostrar o processo. Cada etapa de raciocínio vira output auditável. Quando o raciocínio está visível, os erros ficam visíveis também.

O que é chain of thought prompting

Chain of thought prompting é a técnica de estrutura de prompt que instrui o modelo a produzir etapas intermediárias de raciocínio antes de entregar a resposta final. O conceito foi formalizado por Wei et al. em 2022, em um paper do Google Brain: os pesquisadores mostraram que adicionar "Let's think step by step" a prompts de aritmética e lógica levou o PaLM 540B de 17,9% para 56,4% de acurácia no benchmark GSM8K — e de 73% para quase 100% no MultiArith. A técnica emergiu apenas em modelos acima de 100 bilhões de parâmetros; modelos menores produziram cadeias de raciocínio incoerentes sem ganho de acurácia.

Um dado mais recente: o MedPrompt da Microsoft ("Can Generalist Foundation Models Outcompete Special-Purpose Tuning?", 2023) usou GPT-4 com chain of thought em problemas do exame médico americano (MedQA) e superou o Med-PaLM 2 — modelo especializado em medicina — por 3,4 pontos percentuais. O diferencial não foi o modelo. Foi a estrutura do prompt.

Chain of thought prompting não é o mesmo que CoT nativo dos modelos de raciocínio. O o1 da OpenAI e o Claude 3.7 Sonnet com Extended Thinking fazem CoT internamente antes de retornar qualquer resposta — você não precisa instruí-los. A técnica descrita aqui é para modelos padrão: Claude 3.5 Sonnet, GPT-4o, Gemini 1.5 Pro, e equivalentes onde o raciocínio intermediário não está embutido.

Chain of thought é uma das quatro decisões estruturais de um bom prompt. Se você ainda não conhece as outras três, o guia completo de estrutura de prompts cobre todas elas com exemplos antes/depois e scores reais.

Os três formatos de CoT — quando usar cada um

Chain of thought prompting tem três formatos com características distintas. Escolher o formato errado é tão problemático quanto não usar CoT:

Formato Como funciona Tokens extras Melhor para Dificuldade
Zero-Shot CoT "Pense passo a passo antes de responder" +20–60 tokens Análise com 2–4 variáveis, decisões com critérios conhecidos Fácil
Few-Shot CoT Exemplos com raciocínio intermediário incluído +150–400 tokens Classificação com padrão específico, critérios não-óbvios Médio
CoT Estruturado (XML) Raciocínio separado em tags XML, resposta em tag própria +30–80 tokens Prompts de produção, agentes autônomos, quando a resposta final precisa estar limpa Médio

O custo de tokens da tabela acima é real. Few-Shot CoT com três exemplos de raciocínio pode adicionar 300+ tokens a cada chamada — em pipelines de alto volume, esse custo acumula. Se você está otimizando tokens sem abrir mão do raciocínio estruturado, o CoT Estruturado com XML é o melhor trade-off: overhead de +30–80 tokens e ganho de qualidade consistente.

Zero-Shot CoT na prática

A instrução mais simples que funciona: adicionar uma linha de raciocínio antes da tarefa. Sem exemplos, sem templates — só a instrução de processar passo a passo.

❌ Sem CoT — estrutura: 52/100

"Analise o feedback abaixo e decida se devemos implementar essa feature."

✅ Com Zero-Shot CoT — estrutura: 76/100

"Antes de responder, pense passo a passo: (1) com que frequência esse feedback aparece? (2) quais segmentos de usuário afeta? (3) existe alternativa mais simples? Só então dê a recomendação, com justificativa em uma frase por critério."

O que mudou: o prompt passou de uma instrução aberta ("decida") para uma sequência de perguntas que o modelo precisa responder antes de concluir. O score de estrutura sobe porque o raciocínio está embutido no próprio prompt — o modelo não pode chegar à resposta final sem passar pelas etapas definidas.

Uma variação que funciona bem no Claude: coloque a instrução de raciocínio antes do input, não depois. Claude processa contexto de cima para baixo — quando a instrução precede o material a ser analisado, o modelo carrega o framework de raciocínio antes de começar a processar o conteúdo. Em prompts onde a instrução de CoT vem após um input longo (500+ tokens), a ativação é menos consistente. No GPT-4o, a instrução pode vir antes ou após o input com resultado similar.

CoT com exemplos e estrutura XML

Few-Shot CoT inclui exemplos de raciocínio completo — não só input e output final, mas o processo intermediário. O modelo aprende não só o que responder, mas como chegar lá.

Exemplo de Few-Shot CoT para classificação de feedback de produto:

Classifique o feedback abaixo como IMPLEMENTAR, INVESTIGAR ou DESCARTAR.

Exemplo 1:
Feedback: "O export para CSV não funciona com mais de 10k linhas."
Raciocínio: Bug com impacto mensurável em usuários com uso intenso. Prioridade: reproduzir e corrigir.
Classificação: IMPLEMENTAR

Exemplo 2:
Feedback: "Seria legal ter integração com Notion."
Raciocínio: Feature request genérico sem contexto de frequência ou impacto. Requer mais dados antes de priorizar.
Classificação: INVESTIGAR

Agora classifique:
Feedback: {{feedback}}
Raciocínio: [analise passo a passo antes de classificar]
Classificação:

O CoT Estruturado com XML é a forma mais confiável para produção. A Anthropic recomenda o uso de tags XML para separar seções do prompt, e a estrutura funciona especialmente bem para CoT: permite isolar o raciocínio da resposta final, útil quando você quer o output limpo sem o processo intermediário.

Template copiável — CoT Estruturado com XML:

<instrucoes>
[Descreva a tarefa aqui]
</instrucoes>

<raciocinio>
Antes de responder, analise:
1. [Primeiro critério ou passo]
2. [Segundo critério ou passo]
3. [Terceiro critério ou passo]
</raciocinio>

<input>
{{conteudo_a_analisar}}
</input>

Responda somente após completar o raciocínio acima. Formato da resposta: [especifique aqui]

Score médio com esse template: estrutura 88–92/100 no PromptEval — comparado a 52–60 para o mesmo prompt sem instrução de raciocínio.

Por que o CoT Estruturado com XML pontua mais alto que o Zero-Shot? Porque elimina ambiguidade sobre onde o raciocínio começa e termina. O modelo segue uma sequência clara: processar instruções → analisar passo a passo → produzir resposta. O Zero-Shot CoT ("pense passo a passo") deixa a estrutura desse processo implícita — em prompts longos ou com inputs complexos, a ambiguidade acumula. Para combinar CoT com clareza de instruções, o guia de clareza de prompts cobre como evitar que exemplos e instruções se contradigam.

Quando chain of thought prejudica o resultado

CoT não melhora todo tipo de tarefa. Em três casos específicos, ele piora:

Geração direta de texto. Pedir "pense passo a passo" antes de escrever um email de vendas ou um título de anúncio produz um problema duplo: o raciocínio contamina o output (o modelo inclui o processo no texto final) ou o texto gerado fica mais formal e menos criativo porque o modelo está em modo analítico. Reserve CoT para análise e classificação — não para geração.

Recuperação simples de informação. "Qual é a capital do Brasil?" com instrução de CoT produz "Vamos pensar passo a passo... O Brasil é um país da América do Sul... Brasília..." — tokens a mais, mesma resposta. O raciocínio explícito só agrega valor quando o caminho até a resposta tem múltiplos passos dependentes. Quando a resposta é direta, CoT é overhead.

Classificação binária com critérios simples. "Esse texto está em português ou inglês?" não precisa de raciocínio passo a passo. O modelo sabe. Em alguns modelos, adicionar CoT nesses casos faz o modelo questionar a classificação de formas desnecessárias — e a latência sobe sem compensação de qualidade.

A regra prática: se você consegue descrever "como chegaria à resposta certa?" em menos de dois passos, CoT provavelmente não ajuda. Se a resposta depende de avaliar pelo menos três variáveis distintas, CoT quase sempre melhora.

Como medir se o CoT está funcionando

Duas verificações que funcionam sem acesso a um conjunto de testes formais:

Score de estrutura antes e depois. Cole o prompt sem CoT no PromptEval e anote o score de estrutura. Adicione a instrução de raciocínio e avalie de novo. Um ganho de 15+ pontos indica que o CoT está mudando como o modelo organiza o processamento. Ganho abaixo de 10 pontos sugere que a tarefa não se beneficia de raciocínio explícito — nesse caso, outro ajuste estrutural vai produzir mais resultado. Em prompts avaliados no PromptEval, a adição de CoT estruturado com XML produziu ganhos de 25–35 pontos na dimensão de estrutura nos casos onde a tarefa envolvia análise de múltiplas variáveis.

Teste de consistência de 3 rodadas. Rode o mesmo prompt com CoT três vezes com inputs idênticos. Se as etapas de raciocínio divergem entre as rodadas, a instrução está subexplicada — o CoT não está guiando o processo de forma específica o suficiente. Adicione um nível de detalhe: quais critérios avaliar, em que ordem. Para comparar variantes de forma sistemática, o guia de teste A/B de prompts cobre o processo com múltiplos inputs em paralelo.

Se você tem plano Basic ou Pro, o Playground do PromptEval permite testar o prompt com inputs reais ao vivo — você roda a versão com e sem CoT na mesma sessão e compara os outputs diretamente, sem alternar entre janelas.

Avalie o seu prompt com CoT agora

Você acabou de aprender como estruturar raciocínio em prompts. Veja o score exato — incluindo a dimensão de estrutura — em segundos.

O PromptEval avalia estrutura, clareza, especificidade e robustez separadamente — 3 avaliações gratuitas, sem cartão de crédito. Avaliar meu prompt agora.

Perguntas Frequentes

O que é chain of thought prompting?

Chain of thought prompting é a instrução explícita para que o modelo de IA produza etapas de raciocínio intermediárias antes de dar a resposta final. A técnica foi descrita por Wei et al. em 2022 e mostrou ganhos expressivos: o PaLM 540B foi de 17,9% para 56,4% de acurácia no benchmark GSM8K com CoT, sem qualquer ajuste nos pesos do modelo.

Chain of thought funciona com Claude e ChatGPT?

Sim, com modelos padrão como Claude 3.5 Sonnet, GPT-4o e Gemini 1.5 Pro. A instrução mais simples — "Pense passo a passo antes de responder" — funciona nos dois sem configuração adicional. Para o o1 e o Claude 3.7 Sonnet com Extended Thinking, a técnica não é necessária: esses modelos já fazem CoT internamente.

Quando chain of thought prompting não ajuda?

CoT não melhora tarefas de geração direta de texto (emails, títulos, sumários curtos), recuperação simples de informação, ou classificação binária com critérios óbvios. Nesses casos, a instrução de raciocínio adiciona tokens sem melhorar a qualidade — e pode tornar o output mais rígido em tarefas criativas.

Qual a diferença entre Zero-Shot e Few-Shot CoT?

Zero-Shot CoT usa apenas a instrução de raciocínio sem exemplos. Few-Shot CoT inclui exemplos com raciocínio intermediário completo — o modelo aprende o formato do processo, não só que deve raciocinar. Few-Shot CoT é mais preciso em tarefas com padrão específico, mas custa 150–400 tokens extras por chamada.

Como saber se chain of thought melhorou meu prompt?

Avalie o prompt no PromptEval antes e depois de adicionar a instrução de CoT. Um ganho de 15+ pontos na dimensão de estrutura indica que o CoT está mudando como o modelo processa a tarefa. Abaixo de 10 pontos de ganho, a tarefa provavelmente não se beneficia de raciocínio explícito.

Score your prompts before they hit production

PromptEval scores prompts 0–100 across 4 dimensions — clarity, structure, context, and output spec — and tells you exactly what to fix.

Try free →