templates · boas práticas · exemplos reais

Guia de Prompting por Modelo

Templates de system e user prompt, boas práticas e exemplos práticos para quem roda LLMs em produção.

ClaudeGPT-5.5Gemini 3 em breveLlama 3 em breveMistral em breve

Claude

Anthropic

Opus 4.7 · Opus 4.6 · Sonnet 4.6 · Haiku 4.5 — guia atualizado para os modelos mais recentes

read in english →

Boas práticas para produção

Baseado no guia oficial de prompt engineering da Anthropic ↗

01
Seja claro e direto

Trate o Claude como um novo funcionário brilhante — ele não conhece suas convenções. Seja específico sobre formato, extensão e comportamento esperado. Instruções vagas geram outputs vagos.

menos eficaz
Crie um dashboard de analytics
mais eficaz
Crie um dashboard de analytics. Inclua o máximo de features e interações relevantes. Vá além do básico para uma implementação completa.
02
Use tags XML para estrutura

Tags XML ajudam o Claude a parsear prompts complexos sem ambiguidade, especialmente quando você mistura instruções, contexto e exemplos.

menos eficaz
Analise o texto abaixo e responda a pergunta de forma técnica considerando o histórico do usuário: [texto] [histórico] [pergunta]
mais eficaz
<contexto>[histórico do usuário]</contexto> <documento>[texto a analisar]</documento> <tarefa>[pergunta específica]</tarefa> <formato>Resposta técnica em até 3 parágrafos.</formato>
03
Dê papel e contexto ao modelo

Mesmo uma frase de role no system prompt faz diferença. Adicionar contexto sobre POR QUE uma instrução existe ajuda o Claude a generalizar corretamente.

system="Você é um assistente de suporte especializado em fintech. Priorize clareza sobre completude — nossos clientes são não-técnicos."
04
Use exemplos (few-shot)

Exemplos são a forma mais confiável de guiar formato, tom e estrutura. Envolva em <example> tags para o Claude distinguir exemplos de instruções. Use 3-5 exemplos diversos que cubram edge cases.

05
Restrições operacionais, não aspiracionais

"Seja educado" é aspiracional e inútil. "NÃO invente informações. NÃO faça promessas de desconto. Se não tiver certeza, escale para humano." — isso é operacional e funciona.

06
Controle verbosidade explicitamente

O Claude calibra extensão pela complexidade percebida da tarefa. Se seu produto depende de um nível fixo de output, especifique explicitamente.

Seja conciso. Pule contexto não-essencial. Mantenha exemplos mínimos. Responda em no máximo 3 parágrafos.

Template base copiável

Template com as melhores práticas da Anthropic: separação clara de responsabilidades, tags XML para estrutura, e formato de output explícito.

system prompt
Você é [papel] especializado em [domínio].

Seu tom é [tom: direto/consultivo/técnico/amigável].

<restrições>
- Nunca [o que NÃO fazer — seja operacional, não aspiracional]
- Sempre [comportamento obrigatório]
- Se [edge case], então [ação específica]
</restrições>

<formato_de_output>
Responda em [formato: prosa/JSON/lista]. [Extensão: X parágrafos / máximo Y palavras].
Estrutura esperada: [descreva a estrutura]
</formato_de_output>
user prompt
<contexto>
[Informação de background relevante para esta tarefa específica]
</contexto>

<tarefa>
[O que você quer que o Claude faça — seja específico e imperativo]
</tarefa>

<exemplos>
<exemplo>
Input: [exemplo de entrada]
Output esperado: [exemplo de saída ideal]
</exemplo>
</exemplos>
Dica: Coloque documentos longos e dados antes das instruções — isso pode melhorar qualidade em até 30% em prompts com contexto longo (20k+ tokens).

Estrutura de mensagens

O Claude usa três roles distintos na API. O system define comportamento persistente (persona, tom, restrições). O user contém a tarefa ou pergunta. O assistant é a resposta gerada. Referência da API ↗

estrutura da API (Python)
import anthropic

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=1024,
    system="Você é um assistente especialista em [domínio]. [Tom]. [Restrições].",
    messages=[
        {"role": "user", "content": "Sua tarefa ou pergunta aqui."}
    ],
)
Dica: Coloque persona, tom e restrições globais no system prompt. Deixe a tarefa específica no user prompt. Isso reduz tokens por turno em conversas longas.

Níveis de esforço (Opus 4.7 / Sonnet 4.6)

O parâmetro effort controla profundidade de raciocínio vs. custo de tokens. Ajuste conforme seu caso de uso. Docs extended thinking ↗

max

Máxima performance. Pode pensar demais em tarefas simples.

xhigh

Ideal para coding e agentes. Melhor custo-benefício em tarefas complexas.

high

Balanceado. Mínimo recomendado para tarefas que exigem raciocínio.

medium

Sensível a custo. Troca inteligência por velocidade.

low

Tarefas curtas e latência crítica. Não usar para raciocínio complexo.

exemplo de uso
response = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=64000,
    thinking={"type": "adaptive"},
    output_config={"effort": "xhigh"},  # recomendado para coding e agentes
    messages=[{"role": "user", "content": "..."}],
)

Thinking adaptativo

Claude Opus 4.7, Opus 4.6 e Sonnet 4.6 usam adaptive thinking — o modelo decide quando e quanto raciocinar com base na complexidade da query e no nível de effort. Use para agentes multi-step, coding, e tarefas longas.

pensando demais?
"Thinking adiciona latência e deve ser usado apenas quando melhora significativamente a qualidade. Em caso de dúvida, responda diretamente."
pensando de menos?
"Esta tarefa envolve raciocínio multi-step. Pense cuidadosamente pelo problema antes de responder."

Exemplo completo — agente de suporte

Prompt de produção aplicando todas as boas práticas: papel claro, restrições operacionais, formato definido, edge cases cobertos, separação system/user.

system prompt (produção)
Você é um assistente de suporte da Acme Corp, especializado em resolver dúvidas sobre pagamentos e entregas.

<tom>
Direto e profissional. Não use emojis. Responda em 1-3 parágrafos, tom conversacional, com uma ação clara no final.
</tom>

<restrições>
NÃO invente informações sobre prazos, políticas ou produtos.
NÃO faça promessas de desconto ou exceções não autorizadas.
NÃO peça dados sensíveis (CPF, senha, número de cartão completo).
Se não tiver certeza, escale — nunca especule.
</restrições>

<cenários>
PAGAMENTO: Se cliente relatar problema, peça número do pedido (formato: 8 dígitos) e confirme investigação.
ENTREGA: Prazo padrão é 5-10 dias úteis a partir da confirmação do pagamento.
ESCALAÇÃO IMEDIATA: cliente agressivo, pedido de reembolso/cancelamento, dúvida fora de escopo, pedido para falar com gerente.
</cenários>
user prompt
<histórico_conversa>
[turnos anteriores se houver]
</histórico_conversa>

Mensagem do cliente: {{mensagem_do_cliente}}

GPT-5.5

OpenAI

Prompts outcome-first, controle de personalidade, retrieval budget e loops de validação

read in english →

Boas práticas para produção

Baseado no guia oficial de prompt engineering do GPT-5.5 ↗

01
Prompts outcome-first

O GPT-5.5 performa melhor quando o prompt define o destino e deixa o modelo escolher o caminho. Descreva o que é um bom resultado, quais constraints importam e o que a resposta final deve conter.

menos eficaz
Primeiro inspecione A, depois B, depois compare cada campo, depois pense em todas as exceções, depois decida qual tool usar, depois chame a tool, depois explique o processo ao usuário.
mais eficaz
Resolva o problema do cliente end-to-end. Sucesso = decisão tomada com dados disponíveis + ação completa antes de responder + resposta inclui completed_actions e blockers.
02
Personalidade + estilo de colaboração

Personality controla como o assistente soa (tom, calor, formalidade). Collaboration style controla como ele trabalha (quando pergunta, quando assume, quão proativo). Mantenha ambos curtos.

# Personality Você é um colaborador capaz: acessível, direto e constante. Prefira progredir a parar para esclarecimentos quando o pedido for claro o suficiente. Pergunte apenas quando a informação faltante mudaria materialmente a resposta.
03
Retrieval budget

Retrieval budgets são stopping rules para busca. Dizem ao modelo quando evidência é suficiente — evitam loops de busca desnecessários.

Para Q&A comum, comece com uma busca ampla. Se os resultados cobrem o pedido, responda em vez de buscar de novo. Faça outra chamada apenas quando: resultado não responde a pergunta central, fato obrigatório está faltando, ou usuário pediu cobertura exaustiva.
04
Loops de validação

Dê ao GPT-5.5 acesso a ferramentas que permitam checar outputs quando validação for possível. Para coding, peça comandos concretos de validação.

Após fazer mudanças, rode a validação mais relevante disponível: unit tests para comportamento alterado, type/lint checks quando aplicável, build checks para pacotes afetados. Se não puder rodar validação, explique por quê e descreva o próximo melhor check.
05
Evite regras absolutas desnecessárias

Use SEMPRE, NUNCA, deve e apenas para invariantes reais — regras de segurança, campos obrigatórios, ações que nunca devem acontecer. Para julgamento (quando buscar, usar tool, perguntar), prefira decision rules.

menos eficaz
SEMPRE use a tool de busca. NUNCA responda sem verificar. OBRIGATORIAMENTE confirme cada passo.
mais eficaz
Use a tool de busca quando a resposta requer dados que você não possui ou quando precisão factual é crítica para o resultado.

Template base copiável

Estrutura oficial recomendada pela OpenAI para GPT-5.5. Mantenha cada seção curta — adicione detalhe só onde muda o comportamento.

prompt structure
Role: [1-2 frases definindo função, contexto e trabalho do modelo]

# Personality
[tom, postura e estilo de colaboração — seja breve]

# Goal
[outcome visível ao usuário]

# Success criteria
[o que deve ser verdade antes da resposta final]

# Constraints
[política, segurança, negócio, evidência e limites de side-effects]

# Output
[seções, extensão e tom]

# Stop rules
[quando fazer retry, fallback, abstain, perguntar ou parar]

Estrutura de mensagens

O GPT-5.5 suporta a Responses API (recomendada para agentes) e a Chat Completions API. O parâmetro instructions equivale ao system prompt. Referência da API ↗

Responses API (recomendada)
from openai import OpenAI
client = OpenAI()

response = client.responses.create(
    model="gpt-5.5",
    instructions="Role e comportamento aqui.",
    input="Mensagem do usuário aqui.",
    effort="medium",  # low | medium | high
)
Chat Completions API
response = client.chat.completions.create(
    model="gpt-5.5",
    messages=[
        {"role": "system", "content": "Role e comportamento."},
        {"role": "user", "content": "Mensagem do usuário."}
    ]
)

Níveis de esforço

O GPT-5.5 é mais eficiente que versões anteriores — reavalie antes de escalar para high. O default da API é medium.

high

Tarefas complexas de raciocínio, código difícil, análise profunda.

medium

Default. Balanceado para a maioria dos casos de uso.

low

Alto volume, latência crítica, tarefas simples e diretas.

avalie seu prompt

Seu prompt segue essas boas práticas?

O PromptEval faz um review técnico do seu prompt — score 0-100, pontos críticos, tokens desperdiçados e sugestões de melhoria.

Avaliar meu prompt →Ver exemplo de relatório

3 avaliações grátis por mês · sem cartão

Gemini 3 · Llama 3 · Mistral — guias em desenvolvimento