PromptEval/Blog
15 de maio de 2026·Francisco Ferreira·8 min de leitura

Como Estruturar Prompts de IA: Guia Completo 2026

Resposta Rápida

Estrutura de prompt é como as informações estão organizadas — não o que você pede, mas como você organiza o pedido. As 4 decisões estruturais que mais impactam qualidade são: (1) dividir system prompt de mensagem do usuário, (2) usar delimitadores para separar partes distintas do conteúdo, (3) incluir raciocínio passo a passo antes da resposta (chain-of-thought), e (4) fornecer exemplos de output (few-shot). Cada decisão tem um caso de uso — aplicar todas ao mesmo tempo é tão problemático quanto não aplicar nenhuma.

No leaderboard público do PromptEval, a dimensão de estrutura tem o segundo score mais alto em média entre os 21 prompts públicos — menor apenas que clareza. Isso não significa que os prompts estão bem estruturados. Significa que a maioria das pessoas entende estrutura como "ter partes organizadas", quando na realidade estrutura envolve quatro decisões independentes, cada uma com impacto diferente dependendo do tipo de tarefa.

Este guia cobre essas quatro decisões com critérios claros para quando aplicar cada uma.

Estrutura não é a mesma coisa que clareza nem especificidade

Clareza é a pergunta: o modelo sabe o que você quer? A intenção é inequívoca?

Especificidade é a pergunta: as instruções são concretas o suficiente? Os critérios são mensuráveis?

Estrutura é a pergunta diferente: o prompt está organizado de forma que o modelo processe as informações na ordem e com o peso certos?

Um prompt pode ser claro, específico e mal estruturado ao mesmo tempo. Se as instruções permanentes estão misturadas com o input variável, se partes distintas do conteúdo não estão delimitadas, ou se o modelo não sabe que deve raciocinar antes de responder — você vai ter outputs inconsistentes mesmo com instruções perfeitas. Clareza e estrutura são dimensões independentes de qualidade — as duas precisam estar presentes.

As 4 Decisões Estruturais de um Prompt

Cada uma das quatro decisões abaixo é binária: você aplica ou não. O critério de quando aplicar cada uma é o que separa prompts estruturados de prompts que parecem estruturados.

Decisão 1 — Dividir system prompt de mensagem do usuário

O system prompt é onde ficam as instruções que nunca mudam: quem o modelo deve ser, como deve se comportar, quais restrições sempre se aplicam, qual o formato padrão de resposta. A mensagem do usuário é onde fica o que muda a cada chamada: o input específico, a pergunta concreta, o conteúdo a processar.

Por que isso importa: quando você mistura instruções permanentes com input variável na mesma mensagem, o modelo trata tudo como contexto de mesmo peso. As instruções "permanentes" competem com o input a cada chamada. Em sessões longas ou com muitas chamadas, instruções que deveriam ser constantes começam a ser ignoradas.

Quando aplicar: qualquer prompt usado mais de uma vez com inputs diferentes. Se você está testando um prompt único no playground, a divisão é opcional. Se o prompt vai para produção ou será chamado repetidamente, a divisão é obrigatória.

❌ Tudo na mesma mensagem (estrutura: 44/100)

"Você é um assistente de suporte técnico especializado em SaaS. Responda sempre em português, de forma objetiva, sem jargão técnico. Máximo 150 palavras. O cliente disse: 'Não consigo acessar minha conta.'"

✅ System/User divididos (estrutura: 81/100)

System: "Você é um assistente de suporte técnico especializado em SaaS. Responda sempre em português, de forma objetiva, sem jargão técnico. Máximo 150 palavras por resposta."

User: "O cliente disse: 'Não consigo acessar minha conta.'"

Decisão 2 — Delimitar partes distintas do conteúdo

Quando o prompt mistura instruções, contexto, exemplos e input sem separação visual, o modelo precisa inferir onde começa e termina cada parte. Em prompts curtos isso funciona. Em prompts com mais de 300 palavras, ou com estrutura complexa, a inferência falha — o modelo pode tratar o exemplo como instrução, ou parte da instrução como contexto.

Delimitadores resolvem isso: XML tags (<instrucoes>, <contexto>, <input>), aspas triplas ("""), hífens (---) ou marcadores de seção (### Contexto, ### Tarefa). O formato específico importa menos do que a consistência — use o mesmo padrão em todas as chamadas.

Quando aplicar: qualquer prompt com mais de duas partes distintas (instrução + contexto + input, por exemplo), ou quando o conteúdo do input pode ser confundido com instrução pelo modelo.

❌ Sem delimitadores (estrutura: 51/100)

"Analise o feedback do cliente abaixo e classifique como positivo, neutro ou negativo. Explique por que. Feedback: O produto é bom mas a entrega demorou muito e o suporte não respondeu."

✅ Com delimitadores (estrutura: 86/100)

"Classifique o feedback do cliente como positivo, neutro ou negativo. Explique em uma frase por que.

<feedback>
O produto é bom mas a entrega demorou muito e o suporte não respondeu.
</feedback>"

Decisão 3 — Incluir raciocínio passo a passo (chain-of-thought)

Chain-of-thought instrui o modelo a raciocinar explicitamente antes de dar a resposta final. Em vez de produzir a conclusão diretamente, o modelo mostra o processo — o que melhora a qualidade da conclusão em tarefas que envolvem múltiplos passos de raciocínio.

Quando aplicar: tarefas de análise com múltiplas variáveis, classificação com critérios complexos, debugging, avaliação de argumentos, ou qualquer tarefa onde chegar à resposta errada rapidamente é pior do que chegar à resposta certa devagar. A instrução mais simples: "Pense passo a passo antes de responder." Funciona em modelos como Claude e GPT-4 sem configuração adicional.

Quando não aplicar: geração direta de texto (emails, títulos, sumários curtos), formatação de dados, tarefas onde a velocidade importa mais que a profundidade. Para esses casos, chain-of-thought adiciona latência sem ganho mensurável.

Decisão 4 — Fornecer exemplos de output (few-shot)

Few-shot prompting inclui exemplos de input → output desejado no prompt. O modelo aprende o padrão por analogia, não só por instrução. É a técnica estrutural com maior impacto em tarefas de geração com formato específico — quando o output precisa seguir uma estrutura particular que é difícil de descrever em palavras.

Quantos exemplos: 2 a 3 é o intervalo ideal para a maioria dos casos. Um único exemplo é facilmente sobre-generalizado. Mais de 5 raramente melhora qualidade e consome espaço de contexto. Para classificação com muitas categorias, 1 exemplo por categoria relevante é a regra.

Quando aplicar: tarefas de geração com formato fixo (estrutura de email específica, JSON com schema definido, bullet points em estilo particular), tarefas de classificação com rótulos customizados, ou qualquer caso onde descrever o output em palavras é mais difícil do que mostrar um exemplo.

Quando não aplicar: quando o formato é simples o suficiente para ser descrito em texto, ou quando você tem risco de o exemplo contaminar a resposta com informações específicas do exemplo (ex: o modelo citar dados do exemplo no output real).

Como as 4 decisões interagem

As quatro decisões são independentes mas se somam. Um prompt de produção bem estruturado geralmente combina as quatro — mas isso não significa que você deva aplicar todas as quatro a todo prompt.

A sequência correta de decisão:

  1. O prompt será usado repetidamente com inputs diferentes? → Divida system/user.
  2. O prompt tem mais de duas partes distintas, ou o input pode ser confundido com instrução? → Adicione delimitadores.
  3. A tarefa envolve raciocínio em múltiplos passos? → Adicione chain-of-thought.
  4. O formato do output é difícil de descrever em palavras? → Adicione exemplos few-shot.

Aplicar as quatro a um prompt simples (ex: "escreva um sumário de 50 palavras deste parágrafo") vai piorar a qualidade — o modelo vai raciocinar sobre o que não precisa de raciocínio, seguir exemplos que podem não se aplicar ao input real, e gastar espaço de contexto em delimitadores desnecessários. As quatro dimensões de qualidade de prompt cobrem como estrutura se relaciona com clareza, especificidade e robustez no contexto mais amplo.

Erros estruturais mais comuns em prompts de produção

Instruções que crescem sem system prompt. O prompt começa pequeno, vai ganhando instruções ao longo do tempo, e acaba com 800 palavras na mensagem do usuário — incluindo todas as instruções permanentes, contexto e input junto. A solução não é "organizar melhor" o bloco — é mover as instruções permanentes para o system prompt antes que o acúmulo crie comportamentos imprevisíveis.

Exemplos que contradizem as instruções. Você pede "resposta em bullet points de 2 linhas cada" e inclui um exemplo com um parágrafo de 5 linhas. O modelo segue o exemplo, não a instrução. Exemplos e instruções precisam ser consistentes. Quando contradizem, o exemplo quase sempre vence.

Chain-of-thought em tarefas de geração. Adicionar "pense passo a passo" a um prompt de email de vendas ou geração de título faz o modelo incluir o raciocínio no output — ou produzir texto mais lento e mais genérico. Reserve chain-of-thought para análise e classificação complexa.

Delimitadores inconsistentes. Usar XML tags em uma chamada, aspas triplas em outra e hífens em uma terceira. O modelo aprende padrões de contexto — consistência de formato é parte do que torna delimitadores funcionais.

Teste o seu prompt agora

Você acabou de aprender as 4 decisões estruturais. Veja o score de estrutura do seu prompt — e quais das 4 dimensões estão falhando.

O PromptEval avalia estrutura separadamente de clareza, especificidade e robustez — 3 avaliações gratuitas, sem cartão de crédito. Avaliar meu prompt agora.

Perguntas Frequentes

O que é estrutura em um prompt de IA?

Estrutura em um prompt é como as informações estão organizadas — onde ficam as instruções permanentes vs. o input variável, como partes diferentes do conteúdo são delimitadas, se o modelo deve raciocinar passo a passo antes de responder, e se exemplos de output estão incluídos. Estrutura não é o que você pede, mas como você organiza o pedido para que o modelo processe da forma mais previsível possível.

Qual é a diferença entre estrutura e clareza em um prompt?

Clareza responde se o modelo sabe o que você quer. Estrutura responde como o prompt está organizado para que o modelo processe as informações corretamente. Um prompt pode ser claro mas mal estruturado: a intenção é óbvia, mas as instruções estão misturadas com o input, os exemplos contradizem o pedido, ou o modelo não sabe em que ordem processar as tarefas.

O que é a divisão system/user em prompts de IA?

A divisão system/user separa instruções permanentes (o que o modelo sempre deve fazer, quem ele é, restrições que sempre se aplicam) de inputs variáveis (o conteúdo específico de cada chamada). Instruções permanentes ficam no system prompt. Inputs variáveis ficam na mensagem do usuário. Misturar os dois faz com que instruções permanentes competam com o input a cada chamada.

Chain-of-thought melhora todos os tipos de prompt?

Não. Chain-of-thought melhora prompts que exigem raciocínio em múltiplos passos — análise, classificação complexa, debugging. Para prompts de geração direta — escrever um email, criar um título, formatar dados — pedir raciocínio passo a passo adiciona latência sem ganho de qualidade. Use chain-of-thought quando o processo de chegar à resposta importa tanto quanto a resposta em si.

Quantos exemplos devo incluir em um prompt few-shot?

Para a maioria dos casos de uso, 2 a 3 exemplos são o intervalo ideal. Um único exemplo é facilmente sobre-generalizado. Mais de 5 raramente melhora qualidade e ocupa espaço de contexto. Para classificação com muitas categorias, 1 exemplo por categoria relevante é a regra.

Score your prompts before they hit production

PromptEval scores prompts 0–100 across 4 dimensions — clarity, structure, context, and output spec — and tells you exactly what to fix.

Try free →