Como reduzir o consumo de tokens em prompts?

Os ganhos mais rápidos vêm de cortar definições de papel verbosas, remover linguagem de preenchimento ("por favor", "cuidadosamente", "abrangente") e comprimir instruções redundantes. Juntas, essas três técnicas cortam 40–70% dos tokens na maioria dos prompts com impacto mínimo na qualidade.

Reduzir tokens de prompt prejudica a qualidade do output?

Depende do que você corta. Remover palavras de preenchimento e descrições de papel verbosas tem impacto mínimo na qualidade. Cortar exemplos few-shot abaixo de dois ou comprimir agressivamente system prompts em conversas longas tem risco mensurável. Pontue o prompt antes e depois para verificar se a qualidade se manteve.

O que é prompt caching e como ele economiza tokens?

Prompt caching (disponível no Claude da Anthropic e OpenAI) armazena prefixos de prompt repetidos no servidor. A primeira chamada custa o preço normal. Chamadas seguintes que reutilizam o mesmo prefixo recebem 90% de desconto nos tokens em cache. É a técnica de maior alavancagem para aplicações que enviam o mesmo system prompt em cada requisição.

Como verificar se a otimização de tokens funcionou?

Rode o prompt otimizado em pelo menos 10 inputs representativos, incluindo 2–3 casos extremos. Compare outputs com os originais. Use o PromptEval para pontuar o prompt antes e depois — se a dimensão de clareza ou estrutura cair, a compressão foi longe demais.

PromptEval/Blog

15 de maio de 2026·Francisco Ferreira·9 min de leitura

Como Otimizar Tokens de Prompt (Corte Custos Sem Quebrar Seus Prompts)

Resposta Rápida

Otimização de tokens é a prática de reduzir o comprimento do prompt para cortar custos de API sem degradar a qualidade do output. O princípio central: cada palavra em um prompt tem um custo, mas nem toda palavra contribui valor. Identifique quais tokens justificam seu preço — e corte o resto.

Um system prompt de produção que roda 500 vezes por dia com 300 tokens cada custa cerca de 150.000 tokens diários. Corte para 180 tokens — completamente factível — e você reduz esse item em 40%. Em um ano, são milhões de tokens. Com o câmbio do dólar, isso representa uma diferença real no custo mensal das APIs para times brasileiros.

O problema é que a maioria dos conselhos de otimização é vaga. "Deixe seus prompts mais curtos" não é uma técnica. O que segue são 7 técnicas específicas, ordenadas por esforço e economia, com exemplos antes/depois.

Por que contagem de tokens importa mais que comprimento (a matemática de custo)

Você é cobrado por token, não por caractere. Um token é aproximadamente 4 caracteres ou 0,75 palavras em inglês — em português, a relação varia levemente. Código, JSON e terminologia técnica tokenizam diferente de prosa comum.

A estrutura de custo se acumula rapidamente:

Tokens de input — cobrados toda vez que você manda o prompt
Tokens de output — geralmente 2–3x mais caros por token que input
Uso da janela de contexto — prompts maiores reduzem o espaço para histórico de conversa, forçando truncamento mais cedo

As 7 técnicas de otimização de tokens — ordenadas por esforço vs. economia

Técnica	Tokens economizados	Risco de qualidade	Esforço
Cortar definições de papel verbosas	Alto (20–30 tokens)	Mínimo	Baixo
Remover linguagem de preenchimento	Alto (15–30 tokens)	Zero	Baixo
Comprimir instruções do system prompt	Alto (30–80 tokens)	Baixo	Médio
Reduzir exemplos few-shot	Médio (40–140 tokens)	Médio	Médio
Especificar formato de output explicitamente	Médio (tokens de output)	Zero	Baixo
Usar notação estruturada compacta	Médio (10–25 tokens)	Baixo	Baixo
Implementar prompt caching	90% em chamadas repetidas	Zero	Alto

1. Cortar definições de papel verbosas

Definições de papel são a fonte mais comum de inchaço de tokens. Elas crescem por iteração — alguém adiciona "experiente", depois "sênior", depois uma lista de tecnologias, depois uma declaração de filosofia. Nada disso muda o comportamento do modelo de forma significativa para tarefas diretas.

Antes — 42 tokens

"Você é um engenheiro de software sênior experiente com 15 anos de experiência em Python, JavaScript e infraestrutura cloud que se especializa em escrever código limpo e manutenível..."

Depois — 9 tokens

"Você é um engenheiro de software Python/JS."

2. Remover linguagem de preenchimento

"Por favor", "cuidadosamente", "abrangente", "detalhado", "certifique-se de" — essas palavras custam tokens e não contribuem nada. O modelo não responde a marcadores de cortesia. Não tenta mais porque você disse "cuidadosamente". São hábitos da escrita humana sem efeito na qualidade do output de LLM.

3. Comprimir instruções do system prompt

System prompts longos geralmente repetem a mesma restrição de três formas diferentes. "Seja conciso. Mantenha as respostas breves. Não explique demais." Escolha uma. Consolide regras repetidas em uma única instrução direta. Use bullets em vez de parágrafos para listas de instruções.

4. Reduzir exemplos few-shot

Exemplos few-shot são caros — 60 tokens por exemplo somam rápido. Avalie se você realmente precisa de todos eles. Dois exemplos bem escolhidos geralmente superam cinco mediocres. O objetivo é cobrir os padrões mais importantes, não volume.

5. Especificar formato de output explicitamente

Tokens de output custam mais que tokens de input na maioria das APIs. Se você não restringir o output, o modelo vai gerar tanto quanto achar útil — geralmente 2–3x mais do que você precisa. Diga exatamente o que retornar: "Retorne apenas o objeto JSON. Sem explicação. Sem preâmbulo."

6. Usar notação estruturada compacta

Instruções escritas como prosa usam mais tokens que a mesma informação em bullets ou notação estruturada compacta. "Você deve responder primeiro reconhecendo a pergunta do usuário, depois fornecendo a resposta, e então oferecendo uma sugestão de acompanhamento" → três bullets. Mesmo significado, menos tokens.

7. Implementar prompt caching para prefixos repetidos

Anthropic e OpenAI oferecem prompt caching — um recurso que armazena prefixos de prompt repetidos no servidor. A primeira chamada custa o preço normal. Cada chamada seguinte que reutiliza o mesmo prefixo recebe 90% de desconto nos tokens em cache. Para aplicações que enviam o mesmo system prompt milhares de vezes por dia, esta é de longe a otimização de maior impacto. Requer uma mudança de código (parâmetro cache_control no Anthropic), mas a economia é difícil de ignorar.

Importante: qualidade antes de otimizar

Uma advertência: compressão de tokens e qualidade estrutural de prompt podem entrar em conflito. Cortar tokens de especificidade — as restrições concretas que dizem ao modelo o que fazer — destrói consistência mesmo economizando custo.

A regra prática: optimize tokens de papel e preenchimento livremente. Otimize tokens de instrução com cuidado. Pontue o prompt antes e depois para verificar que clareza, especificidade e estrutura não caíram. O guia de avaliação de qualidade de prompt cobre como fazer isso sistematicamente em menos de 10 segundos.

Se quiser ver o antes/depois em tokens reais do seu prompt, o PromptEval inclui um otimizador de tokens que comprime sem perder intenção — disponível gratuitamente com até 12k caracteres.

Score your prompts before they hit production

PromptEval scores prompts 0–100 across 4 dimensions — clarity, structure, context, and output spec — and tells you exactly what to fix.

Try free →