llm-evaluation
Créer des plans d'évaluation LLM fiables
Vous avez besoin de méthodes cohérentes pour mesurer la qualité et les régressions des LLM. Cette compétence fournit des métriques, des recommandations pour l'évaluation humaine et des cadres de test pour une évaluation IA fiable.
Die Skill-ZIP herunterladen
In Claude hochladen
Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen
Einschalten und loslegen
Teste es
Verwendung von "llm-evaluation". Proposer un plan d'évaluation pour un assistant RAG.
Erwartetes Ergebnis:
- Métriques automatisées : MRR, NDCG, Précision à K
- Évaluations humaines : exactitude, pertinence, utilité
- Juge LLM : comparaison par paires pour les réponses finales
- Règle de régression : échouer si l'exactitude baisse de plus de 5 pour cent
Verwendung von "llm-evaluation". Quelles métriques dois-je utiliser pour évaluer un modèle de résumé ?
Erwartetes Ergebnis:
- ROUGE pour le chevauchement de n-grammes avec les résumés de référence
- BERTScore pour la similarité sémantique utilisant les embeddings
- Score de factualité pour vérifier les affirmations par rapport au texte source
- Évaluation de la lisibilité humaine pour la cohérence et la fluidité
Verwendung von "llm-evaluation". Comment détecter si mon modèle régresse ?
Erwartetes Ergebnis:
- Stocker les scores de référence d'un modèle de référence ou d'une version précédente
- Comparer les scores du nouveau modèle par rapport à la référence sur le même ensemble de test
- Marquer les métriques dont le changement relatif dépasse votre seuil
- Effectuer un test de significativité statistique pour confirmer les différences réelles
Sicherheitsaudit
SicherThis skill contains only static documentation (SKILL.md) with no executable files. All static findings are false positives: markdown code block backticks were misidentified as Ruby/shell command execution, and JSON metadata fields were misclassified as cryptographic issues. The skill provides evaluation guidance only with no data access, network activity, or command execution capability.
Risikofaktoren
🌐 Netzwerkzugriff (1)
⚙️ Externe Befehle (23)
Qualitätsbewertung
Was du bauen kannst
Porte de régression dans la CI
Concevoir une liste de vérification d'évaluation et des seuils pour bloquer les modifications de modèle qui réduisent la qualité.
Brief de comparaison de modèles
Comparer deux options de modèles en utilisant des évaluations humaines et des scores automatisés pour une note de décision.
Plan d'étude d'analyse comparative
Créer un plan d'analyse comparative avec des ensembles de données, des métriques et une structure de rapport.
Probiere diese Prompts
Créer un plan d'évaluation de base avec 3 métriques automatisées et 2 critères humains pour un chatbot de support client.
Recommander des métriques pour la résumé, expliquer ce que chacune capture, et noter une limite par métrique.
Rédiger une invite de juge LLM par paires pour comparer les réponses A et B selon l'exactitude, l'utilité et la clarté.
Décrire un plan de test statistique pour l'évaluation A/B, incluant des conseils sur la taille de l'échantillon et le rapport de la taille d'effet.
Bewährte Verfahren
- Utiliser plusieurs métriques et une revue humaine ensemble
- Tester avec des données représentatives et diverses
- Suivre les références et la significativité statistique
Vermeiden
- S'appuyer sur une seule métrique
- Tester sur des données d'entraînement
- Ignorer la variance dans les petits échantillons
Häufig gestellte Fragen
Est-ce compatible avec Claude et Codex ?
Quelles sont les limites de cette compétence ?
Comment l'intégrer à ma pile technologique ?
Accède-t-il à mes données ou les stocke-t-il ?
Que faire si les scores sont instables ?
En quoi est-ce différent d'une liste de benchmarks ?
Entwicklerdetails
Autor
wshobsonLizenz
MIT
Repository
https://github.com/wshobson/agents/tree/main/plugins/llm-application-dev/skills/llm-evaluationRef
main
Dateistruktur
📄 SKILL.md