🧪

llm-evaluation

Name: llm-evaluation
Author: wshobson

Sûr 🌐 Accès réseau⚙️ Commandes externes

Créer des plans d'évaluation LLM fiables

Également disponible depuis: sickn33

Vous avez besoin de méthodes cohérentes pour mesurer la qualité et les régressions des LLM. Cette compétence fournit des métriques, des recommandations pour l'évaluation humaine et des cadres de test pour une évaluation IA fiable.

Prend en charge: Claude Codex Code(CC)

📊 69 Adéquat

Télécharger le ZIP du skill

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

Activez et commencez à utiliser

Tester

Utilisation de "llm-evaluation". Proposer un plan d'évaluation pour un assistant RAG.

Résultat attendu:

Métriques automatisées : MRR, NDCG, Précision à K
Évaluations humaines : exactitude, pertinence, utilité
Juge LLM : comparaison par paires pour les réponses finales
Règle de régression : échouer si l'exactitude baisse de plus de 5 pour cent

Utilisation de "llm-evaluation". Quelles métriques dois-je utiliser pour évaluer un modèle de résumé ?

Résultat attendu:

ROUGE pour le chevauchement de n-grammes avec les résumés de référence
BERTScore pour la similarité sémantique utilisant les embeddings
Score de factualité pour vérifier les affirmations par rapport au texte source
Évaluation de la lisibilité humaine pour la cohérence et la fluidité

Utilisation de "llm-evaluation". Comment détecter si mon modèle régresse ?

Résultat attendu:

Stocker les scores de référence d'un modèle de référence ou d'une version précédente
Comparer les scores du nouveau modèle par rapport à la référence sur le même ensemble de test
Marquer les métriques dont le changement relatif dépasse votre seuil
Effectuer un test de significativité statistique pour confirmer les différences réelles

Audit de sécurité

Sûr

v4 • 1/17/2026

This skill contains only static documentation (SKILL.md) with no executable files. All static findings are false positives: markdown code block backticks were misidentified as Ruby/shell command execution, and JSON metadata fields were misclassified as cryptographic issues. The skill provides evaluation guidance only with no data access, network activity, or command execution capability.

Fichiers analysés

649

Lignes analysées

résultats

Total des audits

Facteurs de risque

Audité par: claude Voir l’historique des audits →

Score de qualité

Architecture

100

Maintenabilité

Contenu

Communauté

100

Sécurité

Conformité aux spécifications

Ce que vous pouvez construire

Porte de régression dans la CI

Concevoir une liste de vérification d'évaluation et des seuils pour bloquer les modifications de modèle qui réduisent la qualité.

Brief de comparaison de modèles

Comparer deux options de modèles en utilisant des évaluations humaines et des scores automatisés pour une note de décision.

Plan d'étude d'analyse comparative

Créer un plan d'analyse comparative avec des ensembles de données, des métriques et une structure de rapport.

Essayez ces prompts

Plan d'évaluation de base

Créer un plan d'évaluation de base avec 3 métriques automatisées et 2 critères humains pour un chatbot de support client.

Guide de sélection de métriques

Recommander des métriques pour la résumé, expliquer ce que chacune capture, et noter une limite par métrique.

Invite de juge LLM

Rédiger une invite de juge LLM par paires pour comparer les réponses A et B selon l'exactitude, l'utilité et la clarté.

Analyse de test A/B

Décrire un plan de test statistique pour l'évaluation A/B, incluant des conseils sur la taille de l'échantillon et le rapport de la taille d'effet.

Bonnes pratiques

Utiliser plusieurs métriques et une revue humaine ensemble
Tester avec des données représentatives et diverses
Suivre les références et la significativité statistique

Éviter

S'appuyer sur une seule métrique
Tester sur des données d'entraînement
Ignorer la variance dans les petits échantillons

Foire aux questions

Est-ce compatible avec Claude et Codex ?

Oui, les recommandations sont agnostiques au modèle et s'appliquent à Claude, Codex, Claude Code et autres LLM.

Quelles sont les limites de cette compétence ?

Elle fournit des recommandations et des exemples mais aucun pipeline d'évaluation exécutable dans ce répertoire.

Comment l'intégrer à ma pile technologique ?

Mappez les métriques et les flux de travail sur vos outils d'évaluation ou CI existants.

Accède-t-il à mes données ou les stocke-t-il ?

Non, il s'agit d'une documentation statique qui ne lit ni ne transmet de données.

Que faire si les scores sont instables ?

Augmenter la taille de l'échantillon, examiner la variance et ajouter une validation humaine avant de prendre des décisions.

En quoi est-ce différent d'une liste de benchmarks ?

Elle combine des métriques, une revue humaine et une stratégie de test plutôt que de simplement lister des benchmarks.

Détails du développeur

Auteur

wshobson

Licence

MIT

Dépôt

https://github.com/wshobson/agents/tree/main/plugins/llm-application-dev/skills/llm-evaluation

Réf

main

Structure de fichiers

📄 SKILL.md