🧪

llm-evaluation

Name: llm-evaluation
Author: wshobson

Sicher 🌐 Netzwerkzugriff⚙️ Externe Befehle

Zuverlässige LLM-Evaluierungspläne erstellen

Auch verfügbar von: sickn33

Sie konsistente Methoden zur Messung der LLM-Qualität und Regressionen benötigen. Diese Skill stellt Metriken, Anleitungen für menschliche Überprüfung und Testframeworks für zuverlässige KI-Bewertung bereit.

Unterstützt: Claude Codex Code(CC)

📊 69 Angemessen

Die Skill-ZIP herunterladen

In Claude hochladen

Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen

Einschalten und loslegen

Teste es

Verwendung von "llm-evaluation". Schlagen Sie einen Evaluierungsplan für einen RAG-Assistenten vor.

Erwartetes Ergebnis:

Automatisierte Metriken: MRR, NDCG, Precision at K
Menschliche Bewertungen: Genauigkeit, Relevanz, Hilfsbereitschaft
LLM Judge: Paarweiser Vergleich für finale Antworten
Regressionsregel: Fehlschlag, wenn Genauigkeit um mehr als 5 Prozent sinkt

Verwendung von "llm-evaluation". Welche Metriken sollte ich verwenden, um ein Zusammenfassungsmodell zu evaluieren?

Erwartetes Ergebnis:

ROUGE für N-Gramm-Überlappung mit Referenzzusammenfassungen
BERTScore für semantische Ähnlichkeit unter Verwendung von Embeddings
Faktizitäts-Bewertung zur Überprüfung von Behauptungen gegen Quelltext
Menschliche Lesbarkeitsbewertung für Kohärenz und Flüssigkeit

Verwendung von "llm-evaluation". Wie erkenne ich, ob mein Modell regressiert?

Erwartetes Ergebnis:

Speichern Sie Baseline-Scores von einem Referenzmodell oder einer vorherigen Version
Vergleichen Sie neue Modell-Scores mit Baseline auf demselben Testdatensatz
Kennzeichnen Sie Metriken, bei denen die relative Änderung Ihren Schwellenwert überschreitet
Führen Sie einen statistischen Signifikanztest durch, um echte Unterschiede zu bestätigen

Sicherheitsaudit

Sicher

v4 • 1/17/2026

This skill contains only static documentation (SKILL.md) with no executable files. All static findings are false positives: markdown code block backticks were misidentified as Ruby/shell command execution, and JSON metadata fields were misclassified as cryptographic issues. The skill provides evaluation guidance only with no data access, network activity, or command execution capability.

Gescannte Dateien

649

Analysierte Zeilen

befunde

Gesamtzahl Audits

Auditiert von: claude Audit-Verlauf anzeigen →

Qualitätsbewertung

Architektur

100

Wartbarkeit

Inhalt

Community

100

Sicherheit

Spezifikationskonformität

Was du bauen kannst

Regression-Gate in CI

Entwerfen Sie eine Evaluierungs-Checkliste und Schwellenwerte, um Modelländerungen zu blockieren, die die Qualität reduzieren.

Modellvergleichs-Briefing

Vergleichen Sie zwei Modelloptionen mit menschlichen Bewertungen und automatisierten Scores für ein Entscheidungsmemo.

Benchmarking-Studienplan

Erstellen Sie einen Benchmarking-Plan mit Datensätzen, Metriken und Berichtsstruktur.

Probiere diese Prompts

Starter-Evaluierungsplan

Erstellen Sie einen grundlegenden Evaluierungsplan mit 3 automatisierten Metriken und 2 menschlichen Kriterien für einen Kundensupport-Chatbot.

Metrik-Auswahlleitfaden

Empfehlen Sie Metriken für Zusammenfassung, erklären Sie, was jede erfasst, und notieren Sie eine Einschränkung pro Metrik.

LLM-Judge-Prompt

Entwerfen Sie einen paarweisen LLM-Judge-Prompt, um Antwort A und B auf Genauigkeit, Hilfsbereitschaft und Klarheit zu vergleichen.

A/B-Test-Analyse

Beschreiben Sie einen statistischen Testplan für A/B-Evaluation, einschließlich Orientierungshilfe für Stichprobengröße und Effektgrößenberichterstattung.

Bewährte Verfahren

Verwenden Sie mehrere Metriken und menschliche Überprüfung gemeinsam
Testen Sie mit repräsentativen und vielfältigen Daten
Verfolgen Sie Baselines und statistische Signifikanz

Vermeiden

Sich auf eine einzelne Metrik verlassen
Auf Trainingsdaten testen
Varianz bei kleinen Stichproben ignorieren

Häufig gestellte Fragen

Ist dies mit Claude und Codex kompatibel?

Ja, die Anleitung ist modellunabhängig und gilt für Claude, Codex, Claude Code und andere LLMs.

Was sind die Grenzen dieser Skill?

Es bietet Anleitungen und Beispiele, aber keine ausführbare Evaluierungs-Pipeline in diesem Verzeichnis.

Wie integriere ich dies mit meinem Stack?

Ordnen Sie die Metriken und Workflows Ihren bestehenden Evaluierungs- oder CI-Tools zu.

Greift es auf meine Daten zu oder speichert es sie?

Nein, es ist statische Dokumentation und liest oder überträgt keine Daten.

Was ist, wenn die Scores instabil sind?

Erhöhen Sie die Stichprobengröße, überprüfen Sie die Varianz und fügen Sie menschliche Validierung vor Entscheidungen hinzu.

Wie unterscheidet sich dies von einer Benchmark-Liste?

Es kombiniert Metriken, menschliche Überprüfung und Teststrategie, anstatt nur Benchmarks aufzulisten.

Entwicklerdetails

Autor

wshobson

Lizenz

MIT

Repository

https://github.com/wshobson/agents/tree/main/plugins/llm-application-dev/skills/llm-evaluation

Ref

main

Dateistruktur

📄 SKILL.md

llm-evaluation

Teste es

Sicherheitsaudit

Risikofaktoren

Qualitätsbewertung

Was du bauen kannst

Regression-Gate in CI

Modellvergleichs-Briefing

Benchmarking-Studienplan

Probiere diese Prompts

Bewährte Verfahren

Vermeiden

Häufig gestellte Fragen

Entwicklerdetails