PromptEval
← voltar ao dashboard
planos e preços

Do primeiro score ao
prompt em produção.

Avalie de graça. Trave regressão no CI e sirva prompts em produção quando for shippar.

uso pessoal
Free
Grátis

Veja seu primeiro score em 60 segundos. Sem cartão de crédito.

Ideal para: testar o método num prompt
✓ plano atual
3 avaliações web/mês — score + 4 dimensõesi
API de eval: lint 10/mês + BYOK ilimitadoi
Problemas, alertas e pontos fortesi
Biblioteca — até 5 prompts, versões ilimitadasi
avaliação web · prompts até 8.000 caracteres
uso pessoal
Basic
R$14/mês

Corrija prompts antes que causem erros em produção. 30×/mês.

Ideal para: quem vive em prompt no dia a dia, sem deploy

cancele quando quiser · sem fidelidade

30 créditos/mês — avaliações, iterator, mapa e otimizadori
API de eval: lint 30/mês + BYOK ilimitadoi
Análise técnica + recomendações priorizadasi
Prompt melhorado — IA reescreve com tudo corrigidoi
Iterador de produção — ajuste cirúrgico do que falhai
Biblioteca ilimitada + histórico completo de versõesi
Playground — teste ao vivo com sua própria chave (BYOK)i
avaliação web · prompts até 12.000 caracteres
✦ recomendado
◆ em produção
Pro
R$39/mês
≈ R$1,30/dia · cancele quando quiser

Shippe prompt com rede de segurança — serving + gate de regressão no CI.

Ideal para: dev que shippa prompt pra produção

cancele quando quiser · sem fidelidade

Tudo do Basic incluído — análise técnica, iterador, mapa, playground e bibliotecai
Serving por slug — prompt em produção sem redeployi
Gate de regressão no CI + GitHub Actioni
API de eval full + lint 75/mêsi
Web ilimitado — avaliações, iterador e mapai
Batch A/B testing — LLM as judgei
avaliação web · prompts até 35.000 caracteres
◆ em produção
Team
R$149/mês

Governe prompts em time — papéis, aprovação e auditoria.

Ideal para: time que governa prompts em produção

cancele quando quiser · sem fidelidade

Tudo do Pro incluído — serving, gate de CI, API full e batch A/Bi
Workspaces com papéis — viewer, editor, admini
Fluxo de aprovação de produçãoi
Audit log — quem mudou o quê e quandoi
API de eval: lint 250/mês + BYOK ilimitadoi
Export da biblioteca em JSON e CSVi
Suporte prioritário — resposta em até 24hi
avaliação web · prompts até 60.000 caracteres

Persona na posição 1 está confirmada: a atenção em U faz começo e fim do prompt pesarem mais. Respostas de edge-case scriptadas são de alta durabilidade — templates prontos sobrevivem melhor à ambiguidade que regras abstratas.

— CodeMaitre · Reddit · chegou cético, saiu convencido

0 prompts avaliados · 0 tokens economizados

O limite de caracteres refere-se ao tamanho máximo do prompt submetido por avaliação. Prompts
acima do limite do plano não serão processados. Caracteres incluem espaços, quebras de linha e formatação.

Seus prompts são processados e descartados — nunca usados para treinar modelos de IA.

O que o PromptEval faz além de um chat (ChatGPT/Claude)?

Um chat dá sugestão conversacional e sem memória. Aqui você tem um score reproduzível (8 sub-critérios a temperatura 0 contra uma rubrica ancorada — mesmo prompt, mesmo número) e, em cima dele, o que um chat não tem: versionamento com diff, gate de regressão no CI e serving do prompt de produção por slug.

O score é confiável? Como é calculado?

8 sub-critérios em 4 dimensões (clareza, especificidade, estrutura, robustez), cada um a temperatura 0 contra uma rubrica explícita: abaixo de 60 = falhas sérias, acima de 85 = robusto de verdade. Ajusta ±8 por fatores técnicos como posicionamento de instrução (a atenção em U faz começo e fim pesarem mais) e separação system/user. É análise estruturada, não opinião.

Por que não basta rodar o prompt pra testar?

Análise estática e teste de runtime são complementares. A estática pega o que quebra antes de rodar — instrução enterrada no meio do contexto, edge case sem tratamento, contradição — falhas que aparecem no output independente do input. Pro lado comportamental tem o Playground e o Batch A/B. Use a estática como gate barato no CI; o runtime quando precisar.

Funciona com qualquer modelo (GPT, Gemini, etc.)?

Sim. A avaliação é model-agnostic — analisa o prompt como instrução técnica, independente do modelo de destino. O Playground e o BYOK aceitam chaves Anthropic e OpenAI.

Dá pra usar no meu CI/CD?

Sim, no Pro+. REST API (POST /api/v1/eval) + GitHub Action oficial que reprova o PR se o score cair, houver contradição, ou regredir vs produção. O modo lint é aberto a todos os planos; o full precisa de Pro/Team ou BYOK.

Preciso de redeploy pra trocar um prompt em produção?

Não (Pro+). Dê um slug ao prompt e sirva a versão de produção por GET /api/v1/prompts/{slug}. Troca na biblioteca e vale em ~60s, sem deploy.

Qual a diferença entre os créditos web e a cota de API?

São medidores separados. Os créditos web valem pro avaliador, iterador e playground no site (Free 3, Basic 30; Pro e Team ilimitado). A cota de API é só pras chamadas HTTP (lint 10/30/75/250 por mês). E BYOK é ilimitado nos dois — roda na sua chave.

Como difere de promptfoo, LangSmith ou PromptLayer?

Essas são fortes em tracing e observabilidade de chamadas em runtime. O PromptEval é análise estática + registro: pega o que quebra antes de rodar (estrutura, conflito, regressão) e serve/versiona o prompt de produção. São complementares — veja as comparações em /compare.

Como funciona o plano Free?

3 avaliações web por mês, renovadas automaticamente, sem cartão. Inclui score, 4 dimensões, problemas e alertas, biblioteca até 5 prompts, e 10 chamadas de API lint/mês (BYOK ilimitado).

Meus prompts são privados?

Sim. São enviados ao Claude para avaliação e descartados após o processamento — nunca usados para treinar modelos. Tudo fica com Row Level Security: só sua conta acessa.

pagamento seguro via Stripe · todos os preços em BRL · cancele quando quiser · dúvidas? fale conosco