O que é um bom score de prompt de IA?

Em uma escala 0–100, um score de 61–75 é sólido e pronto para produção na maioria dos casos de uso. Scores acima de 75 são genuinamente raros — o prompt mais bem ranqueado no leaderboard do PromptEval fica em 72/100. Se seu prompt pontua abaixo de 50, corrija especificidade primeiro: ela falha 2,3× mais que qualquer outra dimensão.

Como pontuar um prompt de IA?

Cole seu prompt no PromptEval (prompt-eval.com) e receba um score 0–100 em 4 dimensões — clareza, especificidade, estrutura e robustez — em menos de 10 segundos. Sem cadastro, sem API key. O plano gratuito inclui 3 avaliações por mês.

O que significa um score de 0–100 para um prompt?

Um score 0–100 de prompt mede qualidade estrutural em quatro dimensões: clareza (a intenção é inequívoca), especificidade (os requisitos são precisos), estrutura (contexto → tarefa → formato está ordenado corretamente) e robustez (o prompt trata casos extremos). Mede quão bem-formado o prompt está — não se o modelo vai produzir uma boa resposta para qualquer input específico.

PromptEval/Blog

15 de maio de 2026·Francisco Ferreira·7 min de leitura

Pontuação de Prompt de IA: O que Mede (e Como Scores Reais Se Parecem)

Resposta Rápida

Pontuação de prompt de IA é o processo de avaliar a qualidade estrutural de um prompt antes de rodá-lo — atribuindo um score 0–100 em dimensões como clareza, especificidade, estrutura e robustez. Diz se o prompt está bem-formado. Não diz se o modelo vai dar uma boa resposta para qualquer input específico. Essa distinção importa.

Você cola um prompt, recebe um número. Mas o que esse número realmente reflete, e por que continua vindo mais baixo do que o esperado?

Avaliamos milhares de prompts pelo PromptEval. O score mais alto no leaderboard fica em 72/100. A maioria dos prompts cai entre 40 e 55. Em todas as avaliações que rodamos, um padrão se repete: especificidade falha 2,3× mais que qualquer outra dimensão. As pessoas escrevem requisitos vagos e esperam que o modelo preencha as lacunas. Às vezes funciona. Quando não funciona, culpam o modelo.

O que as 4 dimensões medem

Cada dimensão mira uma fraqueza estrutural diferente. São independentes — um prompt pode ter score alto em clareza e baixo em especificidade.

Clareza: O modelo consegue entender a intenção em uma leitura? Sem ambiguidade, sem instruções conflitantes, sem tarefa enterrada no parágrafo três.
Passa: "Escreva um resumo de 3 frases do artigo a seguir, para um leitor não-técnico."
Falha: "Resuma isso." — Que comprimento? Que audiência? Que nível de detalhe?
Falhas de clareza são geralmente invisíveis para o autor. Você sabe o que quis dizer. O modelo não.

Especificidade: A dimensão que falha com mais frequência. Especificidade mede se seus requisitos são precisos o suficiente para restringir o output a algo útil — ou se você deixou espaço para o modelo retornar 10 respostas diferentes que todas parecem corretas.
Passa: "Liste exatamente 5 riscos, cada um com menos de 20 palavras, ordenados por probabilidade."
Falha: "Liste alguns riscos." — Quantos? Que comprimento? Em que ordem?

Estrutura: O prompt está organizado na ordem certa? Contexto antes da tarefa, tarefa antes das restrições de formato, restrições antes dos exemplos. Quando essa ordem quebra — quando o formato aparece no início ou a tarefa está enterrada depois de três parágrafos de contexto — os modelos produzem outputs de qualidade inferior, mesmo quando todas as informações estão tecnicamente presentes.

Robustez: O prompt se mantém quando o input muda? Um prompt que funciona perfeitamente no seu input de teste geralmente quebra quando um usuário manda algo mais curto, mais longo, fora do assunto ou vazio. Scores de robustez medem se o prompt trata esses casos explicitamente — ou deixa o modelo improvisar.

Como scores reais se parecem

Nas avaliações do PromptEval, a maioria dos prompts cai entre 40 e 55. A mediana fica em torno de 48. Isso não é uma falha — é o que um primeiro rascunho não revisado parece estruturalmente.

Faixa de score	O que significa	O que fazer
0–40	Múltiplas falhas estruturais. O prompt vai produzir outputs inconsistentes em qualquer escala.	Reescreva com papel, formato de output e pelo menos uma restrição explícita
41–60	Funciona em desenvolvimento — inputs limpos, modelo cooperativo. Quebra em produção com inputs reais.	Corrija a dimensão mais baixa primeiro; quase sempre é especificidade
61–75	Sólido e pronto para produção para a maioria dos casos de uso. Scores acima de 72 são raros.	Monte seu conjunto de testes de output; continue iterando
76–100	Alta qualidade. Cada ponto adicional é mais difícil de ganhar; rendimentos decrescentes acima de 80.	Foque em avaliação de output e cobertura de casos extremos

O que fazer quando o score vem baixo

Não tente melhorar todas as dimensões ao mesmo tempo. Corrija a mais baixa primeiro. Geralmente é especificidade — e especificidade tem o caminho de correção mais direto: adicione restrições concretas onde há adjetivos vagos.

"Escreva uma resposta clara e detalhada" → "Escreva uma resposta de 4 parágrafos. Cada parágrafo tem no máximo 3 frases. Use linguagem simples sem jargões."

Depois de corrigir a dimensão mais baixa, re-pontue. Repita até chegar em 70+. O guia completo de avaliação de qualidade de prompt cobre cada dimensão com exemplos antes/depois e o framework CERC para revisão sistemática.

Cole seu prompt no PromptEval agora — score 0–100 em 4 dimensões em menos de 10 segundos, sem cadastro, sem API key. Plano gratuito com 3 avaliações por mês. Você vai ver exatamente qual dimensão está puxando o score para baixo e o que corrigir.

Score your prompts before they hit production

PromptEval scores prompts 0–100 across 4 dimensions — clarity, structure, context, and output spec — and tells you exactly what to fix.

Try free →