Do primeiro score ao
prompt em produção.
Avalie de graça. Trave regressão no CI e sirva prompts em produção quando for shippar.
Veja seu primeiro score em 60 segundos. Sem cartão de crédito.
Corrija prompts antes que causem erros em produção. 30×/mês.
cancele quando quiser · sem fidelidade
Shippe prompt com rede de segurança — serving + gate de regressão no CI.
cancele quando quiser · sem fidelidade
Governe prompts em time — papéis, aprovação e auditoria.
cancele quando quiser · sem fidelidade
Persona na posição 1 está confirmada: a atenção em U faz começo e fim do prompt pesarem mais. Respostas de edge-case scriptadas são de alta durabilidade — templates prontos sobrevivem melhor à ambiguidade que regras abstratas.
— CodeMaitre · Reddit · chegou cético, saiu convencido
0 prompts avaliados · 0 tokens economizados
O limite de caracteres refere-se ao tamanho máximo do prompt submetido por avaliação. Prompts
acima do limite do plano não serão processados. Caracteres incluem espaços, quebras de linha e formatação.
Seus prompts são processados e descartados — nunca usados para treinar modelos de IA.
Um chat dá sugestão conversacional e sem memória. Aqui você tem um score reproduzível (8 sub-critérios a temperatura 0 contra uma rubrica ancorada — mesmo prompt, mesmo número) e, em cima dele, o que um chat não tem: versionamento com diff, gate de regressão no CI e serving do prompt de produção por slug.
8 sub-critérios em 4 dimensões (clareza, especificidade, estrutura, robustez), cada um a temperatura 0 contra uma rubrica explícita: abaixo de 60 = falhas sérias, acima de 85 = robusto de verdade. Ajusta ±8 por fatores técnicos como posicionamento de instrução (a atenção em U faz começo e fim pesarem mais) e separação system/user. É análise estruturada, não opinião.
Análise estática e teste de runtime são complementares. A estática pega o que quebra antes de rodar — instrução enterrada no meio do contexto, edge case sem tratamento, contradição — falhas que aparecem no output independente do input. Pro lado comportamental tem o Playground e o Batch A/B. Use a estática como gate barato no CI; o runtime quando precisar.
Sim. A avaliação é model-agnostic — analisa o prompt como instrução técnica, independente do modelo de destino. O Playground e o BYOK aceitam chaves Anthropic e OpenAI.
Sim, no Pro+. REST API (POST /api/v1/eval) + GitHub Action oficial que reprova o PR se o score cair, houver contradição, ou regredir vs produção. O modo lint é aberto a todos os planos; o full precisa de Pro/Team ou BYOK.
Não (Pro+). Dê um slug ao prompt e sirva a versão de produção por GET /api/v1/prompts/{slug}. Troca na biblioteca e vale em ~60s, sem deploy.
São medidores separados. Os créditos web valem pro avaliador, iterador e playground no site (Free 3, Basic 30; Pro e Team ilimitado). A cota de API é só pras chamadas HTTP (lint 10/30/75/250 por mês). E BYOK é ilimitado nos dois — roda na sua chave.
Essas são fortes em tracing e observabilidade de chamadas em runtime. O PromptEval é análise estática + registro: pega o que quebra antes de rodar (estrutura, conflito, regressão) e serve/versiona o prompt de produção. São complementares — veja as comparações em /compare.
3 avaliações web por mês, renovadas automaticamente, sem cartão. Inclui score, 4 dimensões, problemas e alertas, biblioteca até 5 prompts, e 10 chamadas de API lint/mês (BYOK ilimitado).
Sim. São enviados ao Claude para avaliação e descartados após o processamento — nunca usados para treinar modelos. Tudo fica com Row Level Security: só sua conta acessa.