— qualidade de prompts de IA

Seu prompt é bom? Descubra e melhore.

O que está falhando no seu prompt, uma versão melhor e menos tokens.

PROMPTS AVALIADOS1.320e contando

TOKENS ECONOMIZADOS53.319via otimizador

Começar grátis →Ver exemplo de relatório

3 avaliações grátis por mês · sem cartão · cancela quando quiser

— experimente agora

máx. 12,000 chars

0/100

Clareza83

Especificidade85

Estrutura80

Robustez70

exemplo · clique na caixa pra testar o seu prompt

— o score

Um número que significa algo específico.

Não “esse prompt poderia ser melhor.” Exatamente qual dimensão está falhando e por quê.

Dimensão	O que mede	Falha comum
Clareza	A tarefa tem exatamente uma interpretação razoável. Nenhuma suposição necessária.	Verbos vagos — "me ajude com", "faça algo sobre", "melhore isso"
Especificidade	Os requisitos do output são mensuráveis — não adjetivos. O modelo não tem decisões a tomar sobre como é o "pronto".	"Escreva um resumo conciso" vs "Escreva um resumo de 3 frases em linguagem simples"
Estrutura	As instruções seguem ordem lógica: papel primeiro, contexto segundo, tarefa terceiro, formato por último.	Especificação de formato enterrada após a tarefa, papel ausente, restrições espalhadas
Robustez	Casos extremos têm instruções explícitas — não fallbacks genéricos, mas tratamento específico para as falhas mais prováveis.	Prompt assume input limpo e bem-formado quando usuários reais enviam qualquer coisa

Antes

“Ajude o cliente com o problema dele e seja profissional.”

Score: 18 / 100

Clareza 22Especif. 8Estrutura 25Robustez 17

Depois

“Você é especialista de suporte de um SaaS. Leia a mensagem e retorne: resumo (1 frase), intenção (só o que está explícito), urgência (urgente / normal / baixo). Se não houver pedido claro: intenção = ‘indefinida’, urgência = ‘normal’.”

Score: 79 / 100

Clareza 85Especif. 82Estrutura 77Robustez 72

Melhora de 61 pontos. Mesmo modelo. Prompt melhor.

“

Persona na posição 1 está confirmada: a atenção em U faz o começo e o fim do prompt serem processados com mais força. Respostas de edge-case scriptadas são de alta durabilidade — templates prontos sobrevivem melhor à ambiguidade que regras abstratas.

— CodeMaitre · Reddit · chegou cético, saiu convencido

— gate de regressão

Trate seus prompts como código.

A GitHub Action avalia o prompt no pull request e reprova o merge se o score cair, se houver instrução contraditória, ou se regredir vs a versão em produção.

✕Alguns checks falharam

✕PromptEval / regression gatefalhou em 7s

baseline (produção) 82 → este PR 74

delta −8 · merge bloqueado

.github/workflows/prompt-check.yml

- uses: FranciscoFerreiraff/prompteval-action@v1
  with:
    api_key: ${{ secrets.PROMPTEVAL_API_KEY }}
    prompt_file: prompts/support-agent.md
    baseline_slug: support-agent
    min_score: 75
    fail_on_conflict: true

Funciona em qualquer plano (lint). Serving + gate de regressão no Pro. ver as docs

— o loop

Seis ferramentas. Um loop.

Eles avaliam o output do modelo.

Nós avaliamos a estrutura do prompt. Antes de rodar.

AVALIE

Avaliador

Score 0-100 em 4 dimensões · erros críticos com linha exata · versão melhorada do prompt · grafo de conflitos

Score: 43 · Robustez: 17 ← crítico

Basic+

CORRIJA

Iterador

Corrija a instrução exata que está falhando · edição cirúrgica mínima · sem reescrever o que já funciona

Robustez: 17 → 61 · instrução linha 3 corrigida

VERSIONE

Biblioteca

Salve e versione seus prompts · cada versão guarda score, diff e contexto da mudança · histórico rastreável

V2 salva · Robustez +44pts · diff: 3 linhas editadas

Pro

SIRVA

Prompt API

Sirva prompts da biblioteca via GET · sem redeploy a cada mudança de conteúdo · atualiza ao salvar na biblioteca

GET /api/v1/prompts/suporte-bot · V2 em prod

Basic+

TESTE

Playground A/B

Teste com sua própria chave de API · Batch A/B com dois prompts · até 7 critérios · LLM juiz · resultados em radar chart

V2 vs V1 · 10 inputs · 7 critérios · V2 venceu

COMPARE

Compare

Compare duas versões lado a lado · score por dimensão · detecta automaticamente onde regrediu e por quê

V1: 43 · V2: 74 · V3: 67 ← regrediu aqui

↩ prompt mudou em produção · novo ciclo começa aqui

— para quem é

Feito para quem roda prompts em produção de verdade.

Free · 3 créditos/mês

Dev solo lançando uma feature com IA

“Meu prompt funciona no teste. Falha em 20% dos inputs reais. Não sei por quê.”

A avaliação estrutural encontra a lacuna de robustez exata. Corrija uma vez. Sem mais "funcionava ontem".

Basic · R$14/mês

Dev usando IA no trabalho todo dia

“3 avaliações no free não chegam pra semana. Quero análise técnica e prompt melhorado sem gastar R$39.”

30 créditos/mês para avaliar, iterar e mapear conflitos. Playground com sua chave, biblioteca ilimitada e análise técnica completa.

Pro · R$39/mês

Dev que shippa prompt pra produção

“Mudei o prompt, a qualidade caiu, e nada barrou antes do deploy.”

Gate de regressão no CI + GitHub Action reprovam o PR quando o score cai. Histórico de versões com diff. Serving por slug troca a produção sem redeploy.

Team · R$149/mês

Time que governa prompts em produção

“Cada prompt é uma dependência. Preciso de processo para aprovar, não só feeling.”

Workspaces com papéis (viewer/editor/admin). Fluxo de aprovação pra promover versão. Audit log de quem mudou o quê. Cota de API de 250/mês.

treino diário · grátis · sem cadastro

Aprenda prompt engineering com
tarefas reais de trabalho.

Cada treino é uma tarefa real de trabalho com uma técnica pra dominar. Você escreve o prompt, recebe uma nota por critério e vê exatamente o que faltou. Com trilhas e gabarito comentado.

“

Se as pessoas veem o que mudou sem receber a resposta de bandeja, o desafio continua intacto mas ainda ensina o padrão. É provavelmente o que faz ele ser algo que você volta a usar, em vez de tentar uma vez só.

LeaderAtLeading · Reddit

”

Análise de risco em fintechTriagem de suporteExtração de dadosGuardrails de segurança+ novos cenários toda semana

treinar hoje

— planos

Comece grátis. Faça upgrade quando precisar de mais.

sem contratos · cancela quando quiser

FREE

R$0

para sempre

3 avaliações web/mês + API lint 10/mês (BYOK ilimitado). Biblioteca até 5 prompts com versionamento. Treino diário grátis.

BASIC

R$14

/mês

30 créditos/mês · análise técnica · prompt melhorado · iterador · mapa · playground · API lint 30/mês · biblioteca ilimitada · treino diário com trilhas e gabarito.

MAIS POPULAR

PRO

R$39

/mês

Web ilimitado · serving por slug (troca a produção sem redeploy) · gate de regressão no CI + GitHub Action · API full · batch A/B · 35k chars.

TEAM

R$149

/mês

Pro + workspaces e papéis · aprovação de produção · audit log · cota de API 250/mês · export · 60k chars.

comparar planos em detalhe

pagamentos processados com segurança via Stripe

faq

Perguntas frequentes

Preciso criar uma conta para testar o PromptEval?

Avaliações exigem uma conta gratuita — 3 por mês, sem cartão. O contador de tokens e o desafio diário funcionam sem conta.

Quanto tempo leva uma avaliação?

Geralmente 30 a 60 segundos dependendo do tamanho do prompt. Você recebe breakdown completo por dimensão, erros críticos, pontos fortes e recomendações.

Dá pra usar no meu CI/CD?

Sim. Tem uma REST API (POST /api/v1/eval) e uma GitHub Action oficial que reprova o pull request quando o score cai, quando há instrução contraditória ou quando o prompt regride vs a versão em produção. O modo lint funciona em qualquer plano; o full precisa de Pro/Team ou BYOK.

Preciso de redeploy pra trocar um prompt em produção?

Não. No Pro+ você dá um slug ao prompt e serve a versão de produção via GET /api/v1/prompts/{slug}. Trocou a versão de produção na biblioteca, passa a valer em ~60s, sem deploy.

A API funciona em qualquer plano? E BYOK?

Sim, a API de avaliação é aberta a todos os planos, com cota managed mensal (free 10 · basic 30 · pro 75 · team 250). Com BYOK (sua chave Anthropic no header X-Provider-Key) a inferência roda na sua chave: não consome cota e destrava o modo full em qualquer plano.

Como é diferente de pedir ao Claude para revisar o prompt?

Claude dá sugestões conversacionais — subjetivas, não reproduzíveis, sem versionamento. O PromptEval dá score numérico 0-100 em 4 dimensões específicas, com histórico e comparação entre versões.

Meus dados de prompt são privados?

Sim. Todos os prompts ficam com Row Level Security — só sua conta acessa. O PromptEval não usa seus prompts para treinar modelos.

Trave o próximo prompt antes que ele quebre.

3 avaliações gratuitas · sem cartão

1.320 prompts avaliados · 53.319 tokens economizados

Começar grátis →