Fähigkeiten llm-evaluation
🧪

llm-evaluation

Sicher 🌐 Netzwerkzugriff⚙️ Externe Befehle

Créer des plans d'évaluation LLM fiables

Vous avez besoin de méthodes cohérentes pour mesurer la qualité et les régressions des LLM. Cette compétence fournit des métriques, des recommandations pour l'évaluation humaine et des cadres de test pour une évaluation IA fiable.

Unterstützt: Claude Codex Code(CC)
📊 69 Angemessen
1

Die Skill-ZIP herunterladen

2

In Claude hochladen

Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen

3

Einschalten und loslegen

Teste es

Verwendung von "llm-evaluation". Proposer un plan d'évaluation pour un assistant RAG.

Erwartetes Ergebnis:

  • Métriques automatisées : MRR, NDCG, Précision à K
  • Évaluations humaines : exactitude, pertinence, utilité
  • Juge LLM : comparaison par paires pour les réponses finales
  • Règle de régression : échouer si l'exactitude baisse de plus de 5 pour cent

Verwendung von "llm-evaluation". Quelles métriques dois-je utiliser pour évaluer un modèle de résumé ?

Erwartetes Ergebnis:

  • ROUGE pour le chevauchement de n-grammes avec les résumés de référence
  • BERTScore pour la similarité sémantique utilisant les embeddings
  • Score de factualité pour vérifier les affirmations par rapport au texte source
  • Évaluation de la lisibilité humaine pour la cohérence et la fluidité

Verwendung von "llm-evaluation". Comment détecter si mon modèle régresse ?

Erwartetes Ergebnis:

  • Stocker les scores de référence d'un modèle de référence ou d'une version précédente
  • Comparer les scores du nouveau modèle par rapport à la référence sur le même ensemble de test
  • Marquer les métriques dont le changement relatif dépasse votre seuil
  • Effectuer un test de significativité statistique pour confirmer les différences réelles

Sicherheitsaudit

Sicher
v4 • 1/17/2026

This skill contains only static documentation (SKILL.md) with no executable files. All static findings are false positives: markdown code block backticks were misidentified as Ruby/shell command execution, and JSON metadata fields were misclassified as cryptographic issues. The skill provides evaluation guidance only with no data access, network activity, or command execution capability.

2
Gescannte Dateien
649
Analysierte Zeilen
2
befunde
4
Gesamtzahl Audits
Auditiert von: claude Audit-Verlauf anzeigen →

Qualitätsbewertung

38
Architektur
100
Wartbarkeit
85
Inhalt
21
Community
100
Sicherheit
91
Spezifikationskonformität

Was du bauen kannst

Porte de régression dans la CI

Concevoir une liste de vérification d'évaluation et des seuils pour bloquer les modifications de modèle qui réduisent la qualité.

Brief de comparaison de modèles

Comparer deux options de modèles en utilisant des évaluations humaines et des scores automatisés pour une note de décision.

Plan d'étude d'analyse comparative

Créer un plan d'analyse comparative avec des ensembles de données, des métriques et une structure de rapport.

Probiere diese Prompts

Plan d'évaluation de base
Créer un plan d'évaluation de base avec 3 métriques automatisées et 2 critères humains pour un chatbot de support client.
Guide de sélection de métriques
Recommander des métriques pour la résumé, expliquer ce que chacune capture, et noter une limite par métrique.
Invite de juge LLM
Rédiger une invite de juge LLM par paires pour comparer les réponses A et B selon l'exactitude, l'utilité et la clarté.
Analyse de test A/B
Décrire un plan de test statistique pour l'évaluation A/B, incluant des conseils sur la taille de l'échantillon et le rapport de la taille d'effet.

Bewährte Verfahren

  • Utiliser plusieurs métriques et une revue humaine ensemble
  • Tester avec des données représentatives et diverses
  • Suivre les références et la significativité statistique

Vermeiden

  • S'appuyer sur une seule métrique
  • Tester sur des données d'entraînement
  • Ignorer la variance dans les petits échantillons

Häufig gestellte Fragen

Est-ce compatible avec Claude et Codex ?
Oui, les recommandations sont agnostiques au modèle et s'appliquent à Claude, Codex, Claude Code et autres LLM.
Quelles sont les limites de cette compétence ?
Elle fournit des recommandations et des exemples mais aucun pipeline d'évaluation exécutable dans ce répertoire.
Comment l'intégrer à ma pile technologique ?
Mappez les métriques et les flux de travail sur vos outils d'évaluation ou CI existants.
Accède-t-il à mes données ou les stocke-t-il ?
Non, il s'agit d'une documentation statique qui ne lit ni ne transmet de données.
Que faire si les scores sont instables ?
Augmenter la taille de l'échantillon, examiner la variance et ajouter une validation humaine avant de prendre des décisions.
En quoi est-ce différent d'une liste de benchmarks ?
Elle combine des métriques, une revue humaine et une stratégie de test plutôt que de simplement lister des benchmarks.

Entwicklerdetails

Dateistruktur

📄 SKILL.md