المهارات agent-evaluation
🧪

agent-evaluation

آمن

Avaliar e Testar Desempenho de Agentes LLM

Agentes LLM frequentemente falham em produção apesar de passar em benchmarks. Esta skill fornece testes comportamentais, avaliações de capacidade e métricas de confiabilidade para detectar problemas antes da implantação.

يدعم: Claude Codex Code(CC)
🥉 74 برونزي
1

تنزيل ZIP المهارة

2

رفع في Claude

اذهب إلى Settings → Capabilities → Skills → Upload skill

3

فعّل وابدأ الاستخدام

اختبرها

استخدام "agent-evaluation". Executar teste de contrato comportamental em agente de suporte ao cliente

النتيجة المتوقعة:

Resultados do Teste: 5/5 invariantes passaram em 20 execuções de teste. Pontuação de consistência: 94%. Variância menor detectada no tom de resposta sob cenários de alta carga.

استخدام "agent-evaluation". Teste adversarial para agente de geração de código

النتيجة المتوقعة:

Identificados 3 modos de falha: (1) Falha silenciosa em sintaxe malformada, (2) Respostas incorretas superconfiantes em especificações ambíguas, (3) Exaustão de recursos em tarefas recursivas.

التدقيق الأمني

آمن
v1 • 2/24/2026

All static analysis findings determined to be false positives. The external_commands pattern matches markdown backtick formatting for inline code references, not shell execution. The unicode escape sequence is a standard em-dash character in the description. No weak cryptography exists—this is a documentation file with no executable code. The skill describes LLM agent evaluation methodologies and contains no security risks.

1
الملفات التي تم فحصها
69
الأسطر التي تم تحليلها
0
النتائج
1
إجمالي عمليات التدقيق
لا توجد مشكلات أمنية
تم تدقيقه بواسطة: claude

درجة الجودة

38
الهندسة المعمارية
100
قابلية الصيانة
87
المحتوى
50
المجتمع
100
الأمان
91
الامتثال للمواصفات

ماذا يمكنك بناءه

Validação de Agente Pré-Produção

Execute testes comportamentais abrangentes em agentes antes de implantá-los em ambientes de produção para detectar regressões e lacunas de capacidade.

Comparação e Seleção de Agentes

Avalie múltiplas configurações ou modelos de agentes contra benchmarks padronizados para selecionar o melhor desempenhador para tarefas específicas.

Monitoramento Contínuo de Agentes

Implemente métricas de confiabilidade e testes de regressão contínuos para detectar degradação de desempenho em agentes implantados.

جرّب هذه الموجهات

Teste Básico de Agente
Teste este agente em uma tarefa simples e verifique se a saída corresponde ao comportamento esperado. Execute o teste 3 vezes e relate quaisquer inconsistências.
Definição de Contrato Comportamental
Defina invariantes comportamentais que este agente deve manter em todas as entradas. Crie casos de teste que verifiquem se cada invariante é verdadeiro.
Suíte de Testes Adversariais
Projete casos extremos e entradas adversariais que poderiam quebrar este agente. Inclua entradas malformadas, solicitações ambíguas e restrições conflitantes.
Análise de Confiabilidade Estatística
Execute este agente na mesma tarefa 10 vezes. Analise a distribuição das saídas, calcule métricas de consistência e identifique padrões de falha.

أفضل الممارسات

  • Execute testes múltiplas vezes e analise distribuições estatísticas em vez de resultados únicos
  • Foque em invariantes comportamentais em vez de correspondência exata de strings de saída
  • Inclua entradas adversariais que tentam ativamente quebrar o agente

تجنب

  • Testar agentes com execuções únicas—as saídas de LLM variam e requerem análise estatística
  • Testar apenas caminhos happy path—casos extremos revelam modos de falha críticos
  • Otimizar agentes para métricas específicas em vez de desempenho real da tarefa

الأسئلة المتكررة

Por que os agentes passam em benchmarks mas falham em produção?
Benchmarks frequentemente usam tarefas limpas e bem definidas, enquanto produção envolve cenários ambíguos e do mundo real. Esta skillpreenche essa lacuna com testes comportamentais que espelham casos de uso reais.
Quantas vezes devo executar cada teste?
Mínimo de 3-5 execuções para testes básicos, 10+ para análise de confiabilidade estatística. Mais execuções fornecem melhor confiança em métricas de consistência, mas aumentam o tempo de avaliação.
O que é um contrato comportamental?
Um contrato comportamental define invariantes que o agente deve manter—como nunca expor dados sensíveis, sempre fazer perguntas clarificantes para solicitações ambíguas, ou manter tom consistente entre sessões.
Esta skill pode testar qualquer tipo de agente LLM?
Sim, as metodologias de avaliação se aplicam a agentes conversacionais, agentes de geração de código, agentes de automação de tarefas e sistemas multiagentes. O design do teste deve corresponder ao domínio do agente.
Como lidar com testes instáveis?
Aceite que alguma variabilidade é inerente aos LLMs. Use limites estatísticos (por exemplo, taxa de aprovação de 90%) em vez de exigir 100% de consistência. Rastreie a instabilidade como uma métrica em si.
O que é vazamento de dados na avaliação de agentes?
Vazamento de dados ocorre quando dados de teste aparecem em dados de treinamento ou prompts, causando pontuações artificialmente infladas. Sempre verifique se as entradas de teste são independentes de quaisquer dados que o agente tenha visto.

تفاصيل المطور

المؤلف

sickn33

الترخيص

MIT

مرجع

main

بنية الملفات

📄 SKILL.md