Trate seus prompts como código.
Avalie, versione e trave regressão de prompt no CI. Sirva a versão de produção sem redeploy.
3 avaliações grátis por mês · sem cartão · cancela quando quiser
Um número que significa algo específico.
Não “esse prompt poderia ser melhor.” Exatamente qual dimensão está falhando e por quê.
| Dimensão | O que mede | Falha comum |
|---|---|---|
| Clareza | A tarefa tem exatamente uma interpretação razoável. Nenhuma suposição necessária. | Verbos vagos — "me ajude com", "faça algo sobre", "melhore isso" |
| Especificidade | Os requisitos do output são mensuráveis — não adjetivos. O modelo não tem decisões a tomar sobre como é o "pronto". | "Escreva um resumo conciso" vs "Escreva um resumo de 3 frases em linguagem simples" |
| Estrutura | As instruções seguem ordem lógica: papel primeiro, contexto segundo, tarefa terceiro, formato por último. | Especificação de formato enterrada após a tarefa, papel ausente, restrições espalhadas |
| Robustez | Casos extremos têm instruções explícitas — não fallbacks genéricos, mas tratamento específico para as falhas mais prováveis. | Prompt assume input limpo e bem-formado quando usuários reais enviam qualquer coisa |
Melhora de 61 pontos. Mesmo modelo. Prompt melhor.
Persona na posição 1 está confirmada: a atenção em U faz o começo e o fim do prompt serem processados com mais força. Respostas de edge-case scriptadas são de alta durabilidade — templates prontos sobrevivem melhor à ambiguidade que regras abstratas.
— CodeMaitre · Reddit · chegou cético, saiu convencido
Trave no CI, igual você trava código.
A GitHub Action avalia o prompt no pull request e reprova o merge se o score cair, se houver instrução contraditória, ou se regredir vs a versão em produção.
- uses: FranciscoFerreiraff/prompteval-action@v1
with:
api_key: ${{ secrets.PROMPTEVAL_API_KEY }}
prompt_file: prompts/support-agent.md
baseline_slug: support-agent
min_score: 75
fail_on_conflict: trueFunciona em qualquer plano (lint). Serving + gate de regressão no Pro. ver as docs →
Seis ferramentas. Um loop.
Eles avaliam o output do modelo.
Nós avaliamos a estrutura do prompt. Antes de rodar.
Feito para quem roda prompts em produção de verdade.
Pratique prompt engineering todo dia.
Acompanhe sua evolução.
Um desafio novo a cada dia. Escolha modificadores para aumentar a dificuldade e multiplicar sua pontuação. Compartilhe o resultado. Dispute no ranking.
Se as pessoas veem o que mudou sem receber a resposta de bandeja, o desafio continua intacto mas ainda ensina o padrão. É provavelmente o que faz ele ser algo que você volta a usar, em vez de tentar uma vez só.
— LeaderAtLeading · Reddit
Comece grátis. Faça upgrade quando precisar de mais.
sem contratos · cancela quando quiser
Perguntas frequentes
Preciso criar uma conta para testar o PromptEval?
Quanto tempo leva uma avaliação?
Dá pra usar no meu CI/CD?
Preciso de redeploy pra trocar um prompt em produção?
A API funciona em qualquer plano? E BYOK?
Como é diferente de pedir ao Claude para revisar o prompt?
Meus dados de prompt são privados?
Trave o próximo prompt antes que ele quebre.
3 avaliações gratuitas · sem cartão
0 prompts avaliados · 0 tokens economizados
Começar grátis →