Fähigkeiten llm-evaluation
🧪

llm-evaluation

Sicher 🌐 Netzwerkzugriff⚙️ Externe Befehle

Zuverlässige LLM-Evaluierungspläne erstellen

Sie konsistente Methoden zur Messung der LLM-Qualität und Regressionen benötigen. Diese Skill stellt Metriken, Anleitungen für menschliche Überprüfung und Testframeworks für zuverlässige KI-Bewertung bereit.

Unterstützt: Claude Codex Code(CC)
📊 69 Angemessen
1

Die Skill-ZIP herunterladen

2

In Claude hochladen

Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen

3

Einschalten und loslegen

Teste es

Verwendung von "llm-evaluation". Schlagen Sie einen Evaluierungsplan für einen RAG-Assistenten vor.

Erwartetes Ergebnis:

  • Automatisierte Metriken: MRR, NDCG, Precision at K
  • Menschliche Bewertungen: Genauigkeit, Relevanz, Hilfsbereitschaft
  • LLM Judge: Paarweiser Vergleich für finale Antworten
  • Regressionsregel: Fehlschlag, wenn Genauigkeit um mehr als 5 Prozent sinkt

Verwendung von "llm-evaluation". Welche Metriken sollte ich verwenden, um ein Zusammenfassungsmodell zu evaluieren?

Erwartetes Ergebnis:

  • ROUGE für N-Gramm-Überlappung mit Referenzzusammenfassungen
  • BERTScore für semantische Ähnlichkeit unter Verwendung von Embeddings
  • Faktizitäts-Bewertung zur Überprüfung von Behauptungen gegen Quelltext
  • Menschliche Lesbarkeitsbewertung für Kohärenz und Flüssigkeit

Verwendung von "llm-evaluation". Wie erkenne ich, ob mein Modell regressiert?

Erwartetes Ergebnis:

  • Speichern Sie Baseline-Scores von einem Referenzmodell oder einer vorherigen Version
  • Vergleichen Sie neue Modell-Scores mit Baseline auf demselben Testdatensatz
  • Kennzeichnen Sie Metriken, bei denen die relative Änderung Ihren Schwellenwert überschreitet
  • Führen Sie einen statistischen Signifikanztest durch, um echte Unterschiede zu bestätigen

Sicherheitsaudit

Sicher
v4 • 1/17/2026

This skill contains only static documentation (SKILL.md) with no executable files. All static findings are false positives: markdown code block backticks were misidentified as Ruby/shell command execution, and JSON metadata fields were misclassified as cryptographic issues. The skill provides evaluation guidance only with no data access, network activity, or command execution capability.

2
Gescannte Dateien
649
Analysierte Zeilen
2
befunde
4
Gesamtzahl Audits
Auditiert von: claude Audit-Verlauf anzeigen →

Qualitätsbewertung

38
Architektur
100
Wartbarkeit
85
Inhalt
21
Community
100
Sicherheit
91
Spezifikationskonformität

Was du bauen kannst

Regression-Gate in CI

Entwerfen Sie eine Evaluierungs-Checkliste und Schwellenwerte, um Modelländerungen zu blockieren, die die Qualität reduzieren.

Modellvergleichs-Briefing

Vergleichen Sie zwei Modelloptionen mit menschlichen Bewertungen und automatisierten Scores für ein Entscheidungsmemo.

Benchmarking-Studienplan

Erstellen Sie einen Benchmarking-Plan mit Datensätzen, Metriken und Berichtsstruktur.

Probiere diese Prompts

Starter-Evaluierungsplan
Erstellen Sie einen grundlegenden Evaluierungsplan mit 3 automatisierten Metriken und 2 menschlichen Kriterien für einen Kundensupport-Chatbot.
Metrik-Auswahlleitfaden
Empfehlen Sie Metriken für Zusammenfassung, erklären Sie, was jede erfasst, und notieren Sie eine Einschränkung pro Metrik.
LLM-Judge-Prompt
Entwerfen Sie einen paarweisen LLM-Judge-Prompt, um Antwort A und B auf Genauigkeit, Hilfsbereitschaft und Klarheit zu vergleichen.
A/B-Test-Analyse
Beschreiben Sie einen statistischen Testplan für A/B-Evaluation, einschließlich Orientierungshilfe für Stichprobengröße und Effektgrößenberichterstattung.

Bewährte Verfahren

  • Verwenden Sie mehrere Metriken und menschliche Überprüfung gemeinsam
  • Testen Sie mit repräsentativen und vielfältigen Daten
  • Verfolgen Sie Baselines und statistische Signifikanz

Vermeiden

  • Sich auf eine einzelne Metrik verlassen
  • Auf Trainingsdaten testen
  • Varianz bei kleinen Stichproben ignorieren

Häufig gestellte Fragen

Ist dies mit Claude und Codex kompatibel?
Ja, die Anleitung ist modellunabhängig und gilt für Claude, Codex, Claude Code und andere LLMs.
Was sind die Grenzen dieser Skill?
Es bietet Anleitungen und Beispiele, aber keine ausführbare Evaluierungs-Pipeline in diesem Verzeichnis.
Wie integriere ich dies mit meinem Stack?
Ordnen Sie die Metriken und Workflows Ihren bestehenden Evaluierungs- oder CI-Tools zu.
Greift es auf meine Daten zu oder speichert es sie?
Nein, es ist statische Dokumentation und liest oder überträgt keine Daten.
Was ist, wenn die Scores instabil sind?
Erhöhen Sie die Stichprobengröße, überprüfen Sie die Varianz und fügen Sie menschliche Validierung vor Entscheidungen hinzu.
Wie unterscheidet sich dies von einer Benchmark-Liste?
Es kombiniert Metriken, menschliche Überprüfung und Teststrategie, anstatt nur Benchmarks aufzulisten.

Entwicklerdetails

Dateistruktur

📄 SKILL.md