agent-evaluation
Évaluer et tester les performances des agents LLM
Les agents LLM échouent souvent en production malgré le passage de benchmarks. Cette compétence fournit des tests comportementaux, des évaluations de capacités et des métriques de fiabilité pour détecter les problèmes avant le déploiement.
Télécharger le ZIP du skill
Importer dans Claude
Allez dans Paramètres → Capacités → Skills → Importer un skill
Activez et commencez à utiliser
Tester
Utilisation de "agent-evaluation". Exécuter le test de contrat comportemental sur l'agent support client
Résultat attendu:
Résultats du test : 5/5 invariants passés sur 20 exécutions. Score de cohérence : 94%. Variance mineure détectée dans le ton de réponse sous scénarios de forte charge.
Utilisation de "agent-evaluation". Test adversarial pour l'agent de génération de code
Résultat attendu:
3 modes de défaillance identifiés : (1) Échec silencieux sur syntaxe malformée, (2) Réponses incorrectement sur-confiantes sur specs ambiguës, (3) Épuisement des ressources sur tâches récursives.
Audit de sécurité
SûrAll static analysis findings determined to be false positives. The external_commands pattern matches markdown backtick formatting for inline code references, not shell execution. The unicode escape sequence is a standard em-dash character in the description. No weak cryptography exists—this is a documentation file with no executable code. The skill describes LLM agent evaluation methodologies and contains no security risks.
Score de qualité
Ce que vous pouvez construire
Validation pré-production d'agents
Exécuter des tests comportementaux complets sur les agents avant leur déploiement en production pour détecter les régressions et les lacunes de capacités.
Comparaison et sélection d'agents
Évaluer plusieurs configurations d'agents ou modèles contre des benchmarks standardisés pour sélectionner le meilleur performeur pour des tâches spécifiques.
Monitoring continu d'agents
Implémenter des métriques de fiabilité continues et des tests de régression pour détecter la dégradation des performances des agents déployés.
Essayez ces prompts
Testez cet agent sur une tâche simple et vérifiez que la sortie correspond au comportement attendu. Exécutez le test 3 fois et signalez toute incohérence.
Définissez les invariants comportementaux que cet agent doit maintenir sur tous les inputs. Créez des cas de test qui vérifient que chaque invariant reste vrai.
Concevez des cas limites et des inputs adversariaux qui pourraient briser cet agent. Incluez des inputs malformés, des requêtes ambiguës et des contraintes conflictuelles.
Exécutez cet agent sur la même tâche 10 fois. Analysez la distribution des sorties, calculez les métriques de cohérence et identifiez les patterns de défaillance.
Bonnes pratiques
- Exécutez les tests plusieurs fois et analysez les distributions statistiques plutôt que les résultats uniques
- Concentrez-vous sur les invariants comportementaux plutôt que sur la correspondance exacte des chaînes de sortie
- Incluez des inputs adversariaux qui cherchent activement à briser l'agent
Éviter
- Tester les agents avec une seule exécution—les sorties LLM varient et nécessitent une analyse statistique
- Ne tester que les chemins heureux—les cas limites révèlent des modes de défaillance critiques
- Optimiser les agents pour des métriques spécifiques plutôt que pour les performances réelles des tâches