linter de prompts · gate de regressão no CI

Trate seus prompts como código.

Avalie, versione e trave regressão de prompt no CI. Sirva a versão de produção sem redeploy.

PROMPTS AVALIADOS0e contando
TOKENS ECONOMIZADOS0via otimizador
Começar grátis →Ver exemplo de relatório

3 avaliações grátis por mês · sem cartão · cancela quando quiser

o score

Um número que significa algo específico.

Não “esse prompt poderia ser melhor.” Exatamente qual dimensão está falhando e por quê.

DimensãoO que medeFalha comum
ClarezaA tarefa tem exatamente uma interpretação razoável. Nenhuma suposição necessária.Verbos vagos — "me ajude com", "faça algo sobre", "melhore isso"
EspecificidadeOs requisitos do output são mensuráveis — não adjetivos. O modelo não tem decisões a tomar sobre como é o "pronto"."Escreva um resumo conciso" vs "Escreva um resumo de 3 frases em linguagem simples"
EstruturaAs instruções seguem ordem lógica: papel primeiro, contexto segundo, tarefa terceiro, formato por último.Especificação de formato enterrada após a tarefa, papel ausente, restrições espalhadas
RobustezCasos extremos têm instruções explícitas — não fallbacks genéricos, mas tratamento específico para as falhas mais prováveis.Prompt assume input limpo e bem-formado quando usuários reais enviam qualquer coisa
Antes
“Ajude o cliente com o problema dele e seja profissional.”
Score: 18 / 100
Clareza 22Especif. 8Estrutura 25Robustez 17
Depois
“Você é especialista de suporte de um SaaS. Leia a mensagem e retorne: resumo (1 frase), intenção (só o que está explícito), urgência (urgente / normal / baixo). Se não houver pedido claro: intenção = ‘indefinida’, urgência = ‘normal’.”
Score: 79 / 100
Clareza 85Especif. 82Estrutura 77Robustez 72

Melhora de 61 pontos. Mesmo modelo. Prompt melhor.

Persona na posição 1 está confirmada: a atenção em U faz o começo e o fim do prompt serem processados com mais força. Respostas de edge-case scriptadas são de alta durabilidade — templates prontos sobrevivem melhor à ambiguidade que regras abstratas.

— CodeMaitre · Reddit · chegou cético, saiu convencido

gate de regressão

Trave no CI, igual você trava código.

A GitHub Action avalia o prompt no pull request e reprova o merge se o score cair, se houver instrução contraditória, ou se regredir vs a versão em produção.

Alguns checks falharam
PromptEval / regression gatefalhou em 7s
baseline (produção) 82 → este PR 74
delta −8 · merge bloqueado
.github/workflows/prompt-check.yml
- uses: FranciscoFerreiraff/prompteval-action@v1
  with:
    api_key: ${{ secrets.PROMPTEVAL_API_KEY }}
    prompt_file: prompts/support-agent.md
    baseline_slug: support-agent
    min_score: 75
    fail_on_conflict: true

Funciona em qualquer plano (lint). Serving + gate de regressão no Pro. ver as docs →

o loop

Seis ferramentas. Um loop.

Eles avaliam o output do modelo.

Nós avaliamos a estrutura do prompt. Antes de rodar.

AVALIE
Avaliador
Score 0-100 em 4 dimensões · erros críticos com linha exata · versão melhorada do prompt · grafo de conflitos
Score: 43 · Robustez: 17 ← crítico
Basic+
CORRIJA
Iterador
Corrija a instrução exata que está falhando · edição cirúrgica mínima · sem reescrever o que já funciona
Robustez: 17 → 61 · instrução linha 3 corrigida
VERSIONE
Biblioteca
Salve e versione seus prompts · cada versão guarda score, diff e contexto da mudança · histórico rastreável
V2 salva · Robustez +44pts · diff: 3 linhas editadas
Pro
SIRVA
Prompt API
Sirva prompts da biblioteca via GET · sem redeploy a cada mudança de conteúdo · atualiza ao salvar na biblioteca
GET /api/v1/prompts/suporte-bot · V2 em prod
Basic+
TESTE
Playground A/B
Teste com sua própria chave de API · Batch A/B com dois prompts · até 7 critérios · LLM juiz · resultados em radar chart
V2 vs V1 · 10 inputs · 7 critérios · V2 venceu
COMPARE
Compare
Compare duas versões lado a lado · score por dimensão · detecta automaticamente onde regrediu e por quê
V1: 43 · V2: 74 · V3: 67 ← regrediu aqui
↩ prompt mudou em produção · novo ciclo começa aqui
para quem é

Feito para quem roda prompts em produção de verdade.

Free · 3 créditos/mês
Dev solo lançando uma feature com IA
Meu prompt funciona no teste. Falha em 20% dos inputs reais. Não sei por quê.
A avaliação estrutural encontra a lacuna de robustez exata. Corrija uma vez. Sem mais "funcionava ontem".
Basic · R$14/mês
Dev usando IA no trabalho todo dia
3 avaliações no free não chegam pra semana. Quero análise técnica e prompt melhorado sem gastar R$39.
30 créditos/mês para avaliar, iterar e mapear conflitos. Playground com sua chave, biblioteca ilimitada e análise técnica completa.
Pro · R$39/mês
Dev que shippa prompt pra produção
Mudei o prompt, a qualidade caiu, e nada barrou antes do deploy.
Gate de regressão no CI + GitHub Action reprovam o PR quando o score cai. Histórico de versões com diff. Serving por slug troca a produção sem redeploy.
Team · R$149/mês
Time que governa prompts em produção
Cada prompt é uma dependência. Preciso de processo para aprovar, não só feeling.
Workspaces com papéis (viewer/editor/admin). Fluxo de aprovação pra promover versão. Audit log de quem mudou o quê. Cota de API de 250/mês.
desafio diário · gratuito · sem cadastro

Pratique prompt engineering todo dia.
Acompanhe sua evolução.

Um desafio novo a cada dia. Escolha modificadores para aumentar a dificuldade e multiplicar sua pontuação. Compartilhe o resultado. Dispute no ranking.

Se as pessoas veem o que mudou sem receber a resposta de bandeja, o desafio continua intacto mas ainda ensina o padrão. É provavelmente o que faz ele ser algo que você volta a usar, em vez de tentar uma vez só.

— LeaderAtLeading · Reddit

Comum · Sem CapsIncomum · Sem RepetiçãoRaro · AliteraçãoÉpico · SussurroLendário · ZenMisterioso · ??? ×3.5
jogar hoje →
planos

Comece grátis. Faça upgrade quando precisar de mais.

sem contratos · cancela quando quiser

FREE
R$0
para sempre
3 avaliações web/mês + API lint 10/mês (BYOK ilimitado). Biblioteca até 5 prompts com versionamento.
BASIC
R$14
/mês
30 créditos/mês · análise técnica · prompt melhorado · iterador · mapa · playground · API lint 30/mês · biblioteca ilimitada.
PRO
R$39
/mês
Web ilimitado · serving por slug (troca a produção sem redeploy) · gate de regressão no CI + GitHub Action · API full · batch A/B · 35k chars.
TEAM
R$149
/mês
Pro + workspaces e papéis · aprovação de produção · audit log · cota de API 250/mês · export · 60k chars.
comparar planos em detalhe →
pagamentos processados com segurança via Stripe
faq

Perguntas frequentes

Preciso criar uma conta para testar o PromptEval?
Avaliações exigem uma conta gratuita — 3 por mês, sem cartão. O contador de tokens e o desafio diário funcionam sem conta.
Quanto tempo leva uma avaliação?
Geralmente 30 a 60 segundos dependendo do tamanho do prompt. Você recebe breakdown completo por dimensão, erros críticos, pontos fortes e recomendações.
Dá pra usar no meu CI/CD?
Sim. Tem uma REST API (POST /api/v1/eval) e uma GitHub Action oficial que reprova o pull request quando o score cai, quando há instrução contraditória ou quando o prompt regride vs a versão em produção. O modo lint funciona em qualquer plano; o full precisa de Pro/Team ou BYOK.
Preciso de redeploy pra trocar um prompt em produção?
Não. No Pro+ você dá um slug ao prompt e serve a versão de produção via GET /api/v1/prompts/{slug}. Trocou a versão de produção na biblioteca, passa a valer em ~60s, sem deploy.
A API funciona em qualquer plano? E BYOK?
Sim, a API de avaliação é aberta a todos os planos, com cota managed mensal (free 10 · basic 30 · pro 75 · team 250). Com BYOK (sua chave Anthropic no header X-Provider-Key) a inferência roda na sua chave: não consome cota e destrava o modo full em qualquer plano.
Como é diferente de pedir ao Claude para revisar o prompt?
Claude dá sugestões conversacionais — subjetivas, não reproduzíveis, sem versionamento. O PromptEval dá score numérico 0-100 em 4 dimensões específicas, com histórico e comparação entre versões.
Meus dados de prompt são privados?
Sim. Todos os prompts ficam com Row Level Security — só sua conta acessa. O PromptEval não usa seus prompts para treinar modelos.

Trave o próximo prompt antes que ele quebre.

3 avaliações gratuitas · sem cartão

0 prompts avaliados · 0 tokens economizados

Começar grátis →