Como pontuar meu prompt de IA?

Cole no PromptEval (prompt-eval.com). Você recebe um score 0–100 em clareza, especificidade, estrutura e robustez, com callouts específicos por dimensão, em menos de 10 segundos. O plano gratuito inclui 3 avaliações por mês, sem cartão de crédito.

Qual é um bom score para um prompt?

Acima de 70 é um threshold razoável para produção em casos de alto risco. Prompts abaixo de 50 produzem outputs inconsistentes em escala — especificidade é o problema mais comum. Prompts criativos ou abertos podem ter score menor em especificidade de forma intencional; o score só é um problema quando é acidental.

Qual a diferença entre avaliação estrutural e avaliação de output?

Avaliação estrutural analisa o texto do prompt antes de rodá-lo — em clareza, especificidade, estrutura e robustez. Avaliação de output verifica se os resultados gerados atendem seus critérios para inputs reais. Avaliação estrutural é mais rápida, não precisa de dataset e deve vir primeiro.

Preciso de dataset para avaliar a qualidade de um prompt?

Não, para avaliação estrutural. Ferramentas como o PromptEval pontuam a qualidade estrutural do prompt sem nenhum input — só cole o prompt. Para avaliação de output você precisa de um conjunto de inputs representativos com critérios escritos de antemão para o que "correto" significa.

PromptEval/Blog

15 de maio de 2026·Francisco Ferreira·9 min de leitura

Como Avaliar a Qualidade de um Prompt de IA (e Dar uma Nota Antes de Publicar)

Resposta Rápida

Qualidade de prompt tem quatro dimensões mensuráveis: clareza (tarefa sem ambiguidade), especificidade (requisitos de output concretos), estrutura (ordem lógica das instruções) e robustez (tratamento de variações no input). Você pode pontuar as quatro antes de rodar um único teste — avaliação estrutural vem primeiro, avaliação de output vem depois. A maioria dos prompts pontua abaixo de 55 na primeira avaliação; especificidade é a falha mais comum.

A maioria das pessoas testa um prompt rodando uma vez, lendo o resultado e concluindo que "ficou bom". Esse método funciona nas condições exatas em que você testou. Não diz nada sobre se o prompt vai se manter em escala, com inputs variados ou após uma atualização do modelo.

Avaliar a qualidade de um prompt significa algo mais específico: uma análise sistemática de se o prompt em si — independente de qualquer output — está estruturado para produzir resultados consistentes. Existem duas camadas: avaliação estrutural (o que você pode checar antes de ter outputs) e avaliação de output (o que você mede depois). A maioria dos guias pula a primeira e fica se perguntando por que a segunda continua encontrando as mesmas falhas.

O que a qualidade de prompt realmente mede

"Qualidade" em um prompt não é um julgamento subjetivo sobre se o output soou bem. É uma propriedade mensurável do texto do prompt — que você pode avaliar antes de gerar um único output.

As quatro dimensões estruturais que determinam a qualidade de um prompt formam o framework CERC (Clareza, Especificidade, Robustez, Composição/Estrutura):

Dimensão	O que mede	Falha típica
Clareza	A tarefa tem exatamente uma interpretação razoável. Um leitor sem contexto anterior entenderia o que você quer.	Verbos vagos ("me ajude com"), prompts com múltiplas tarefas sem priorização, pronomes ambíguos
Especificidade	Os requisitos de output são concretos e mensuráveis: formato, comprimento, tom, escopo. O modelo não tem decisões de "como ficou pronto" a tomar.	Adjetivos no lugar de restrições ("escreva um resumo claro" vs. "escreva um resumo de 3 frases em linguagem simples")
Estrutura	Instruções seguem ordem lógica: papel primeiro, contexto segundo, tarefa terceiro, formato por último. Instruções relacionadas estão agrupadas.	Spec de formato enterrado depois da tarefa, papel ausente, restrições espalhadas pelo texto
Robustez	O prompt trata variações nos inputs reais. Casos extremos são antecipados — não com instruções genéricas, mas com tratamento específico para os cenários de falha mais prováveis.	Prompt assume input limpo e bem-formado quando usuários reais enviam qualquer coisa

Detalhamos cada dimensão aqui com exemplos. O resumo: a maioria dos prompts pontua abaixo de 55 na primeira submissão, e especificidade é a primeira falha para a maioria deles. Isso é esperado — especificidade exige saber exatamente o que você quer antes de ver qualquer output, o que a maioria das pessoas não faz até observar uma falha.

Avaliação estrutural: o que checar antes de rodar

Três perguntas diagnósticas que revelam problemas estruturais em menos de 5 minutos:

Você consegue descrever o formato do output esperado sem olhar para outputs anteriores? Se não, o prompt está subespecificado. O modelo vai decidir o formato — e vai decidir diferente a cada vez.
Duas pessoas diferentes poderiam ler esse prompt e ter expectativas diferentes sobre como é um output correto? Se sim, o modelo está fazendo esse julgamento. Ele vai fazer diferente em cada execução, input e versão de modelo.
Se um usuário mandar um input extremo — string vazia, texto muito longo, assunto fora do escopo — o prompt diz o que fazer? Se não, o modelo inventa uma resposta.

A maneira mais rápida de fazer avaliação estrutural é colar o prompt no PromptEval. Você recebe um score 0–100 com callouts específicos por dimensão em menos de 10 segundos. Sem API key, sem dataset, sem instalação. O plano gratuito cobre 3 avaliações por mês.

Teste agora

Você acabou de aprender o que a avaliação estrutural verifica. Veja onde seu prompt falha — o PromptEval avalia gratuitamente com 3 créditos, sem cartão de crédito. Leva 10 segundos.

Exemplo antes e depois com scores

O framework aplicado a um prompt de triagem de suporte, antes e depois da revisão:

Antes:

"Resuma esse ticket de suporte e diga o que o cliente quer."

Score: 31/100 — Clareza: 55 · Especificidade: 12 · Estrutura: 40 · Robustez: 17

Depois:

"Você é um especialista em triagem de suporte. Leia o ticket abaixo e retorne um objeto JSON com três chaves: 'resumo' (uma frase, linguagem simples), 'intencao_do_cliente' (o que o cliente pede, sem inferências além do que está escrito) e 'urgencia' (um de: urgente / normal / baixa, com base no ticket ser sobre queda de serviço, falha de cobrança ou solicitação de feature). Se o ticket não tiver pedido claro, defina intencao_do_cliente como 'indefinida' e urgencia como 'normal'."

Score: 84/100 — Clareza: 88 · Especificidade: 91 · Estrutura: 82 · Robustez: 75

O que mudou: papel definido, formato de output é um JSON com chaves exatas e valores enumerados, "o que o cliente quer" dividido em dois conceitos distintos, caso extremo (sem pedido claro) tratado explicitamente. A melhora de 53 pontos não exigiu um modelo melhor — exigiu um prompt melhor.

Avaliação de output: a segunda camada

Avaliação estrutural diz se o prompt está bem-formado. Não diz se ele produz os outputs que seu caso de uso exige. Para isso você precisa de avaliação de output — e ela requer inputs reais.

O que um conjunto mínimo de testes inclui:

15–30 inputs representando a distribuição real do que usuários vão mandar
Para cada input: um critério escrito do que "correto" parece — não um exemplo de output, mas um padrão testável que você pode aplicar a qualquer output
Pelo menos 3 casos extremos intencionais: os inputs mais prováveis de causar falhas

Erro mais comum: rodar avaliação de output em um prompt estruturalmente fraco. Se o prompt pontua abaixo de 50 na avaliação estrutural, corrija as falhas estruturais primeiro. Testes de output em um prompt malformado geram resultados ruidosos que não apontam a causa raiz. Para comparar duas variantes de prompt de forma sistemática, este guia sobre teste A/B de prompts cobre o processo passo a passo.

Quando score menor é intencional

Nem todo prompt precisa de score acima de 80. Prompts criativos ou exploratórios são projetados para ter menor especificidade — deixar espaço para o modelo. Um prompt de escrita criativa com score 35 em especificidade não é uma falha. Um prompt de triagem de suporte com 35 em especificidade é um risco de produção.

A pergunta relevante não é "esse score está baixo demais?" mas "esse score é intencional?" Se você não consegue explicar por que um score baixo é uma escolha de design, provavelmente não é.

Integrar avaliação no seu workflow

O workflow que funciona individualmente:

Escreva o prompt
Avalie estruturalmente via PromptEval (10 segundos) ou manualmente (10 min)
Corrija as 1–2 falhas estruturais com maior impacto
Reavalie e salve na biblioteca com versionamento
Monte conjunto de 15–30 inputs de interações reais
Rode avaliação de output
Marque a versão aprovada como produção

Versionamento é o passo que a maioria pula — e é o que torna a avaliação útil ao longo do tempo. Sem ele, você não sabe se uma mudança realmente melhorou a qualidade ou se está vendo variância. Para custo: este guia sobre otimização de tokens de prompt mostra como comprimir prompts sem perder a qualidade estrutural que você acabou de construir.

Se quiser exercitar disciplina de prompt engineering com feedback imediato, o Desafio Diário do PromptEval dá um novo problema por dia com critérios definidos de antemão — exatamente o que a passagem de especificidade exige.

Perguntas frequentes

O que é qualidade de prompt de IA?
É uma medida de quão bem a estrutura do prompt foi projetada para produzir outputs consistentes. Cobre clareza, especificidade, estrutura e robustez — propriedades do texto do prompt, não do output.

Como pontuar meu prompt?
Cole no PromptEval. Score 0–100 em 4 dimensões com callouts específicos em menos de 10 segundos. Plano gratuito com 3 avaliações por mês.

Qual é um bom score?
Acima de 70 para prompts de produção de alto risco. Abaixo de 50 gera outputs inconsistentes em escala. Score baixo em especificidade para prompts criativos pode ser intencional.

Preciso de dataset para avaliar qualidade de prompt?
Não, para avaliação estrutural. Ferramentas como o PromptEval pontuam sem nenhum input. Para avaliação de output, sim — você precisa de inputs representativos com critérios escritos.

Qual a diferença entre avaliação estrutural e de output?
Estrutural analisa o prompt antes de qualquer execução — mais rápida, sem dataset, pega a maioria das falhas. De output verifica se os resultados atendem seus critérios para inputs reais — mais lenta, requer dataset representativo.

Score your prompts before they hit production

PromptEval scores prompts 0–100 across 4 dimensions — clarity, structure, context, and output spec — and tells you exactly what to fix.

Try free →