📊

evaluation

Name: evaluation
Author: Asmayaseen

Sicher ⚙️ Externe Befehle🌐 Netzwerkzugriff📁 Dateisystemzugriff

Evaluierungs-Frameworks für Agentensysteme entwickeln

Auch verfügbar von: sickn33,ChakshuGautam,muratcankoylan

Agentensystemen fehlt eine zuverlässige Qualitätsmessung. Diese Skill bietet strukturierte Evaluierungs-Frameworks mit mehrdimensionalen Bewertungsrastern, Testset-Design und Produktionsüberwachung zur systematischen Messung der Agentenleistung.

Unterstützt: Claude Codex Code(CC)

🥉 76 Bronze

Die Skill-ZIP herunterladen

In Claude hochladen

Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen

Einschalten und loslegen

Teste es

Verwendung von "evaluation". Evaluate these 3 agent responses for factual accuracy, completeness, and citation quality.

Erwartetes Ergebnis:

Response A: Overall 0.82 (Good) - Factual: 0.9, Completeness: 0.8, Citations: 0.7 - PASS
Response B: Overall 0.58 (Acceptable) - Factual: 0.7, Completeness: 0.5, Citations: 0.6 - NEEDS IMPROVEMENT
Response C: Overall 0.91 (Excellent) - Factual: 1.0, Completeness: 0.85, Citations: 0.9 - PASS
Recommendation: Focus on improving completeness for responses similar to task type B

Verwendung von "evaluation". Create a test set for a research agent.

Erwartetes Ergebnis:

Test Set: 5 tests created
simple_lookup: Single factual query (complexity: simple)
context_retrieval: Preference-based recommendation (complexity: medium)
multi_step_reasoning: Data analysis task (complexity: complex)
Expected tool calls: 1-3 for simple, 3-5 for medium, 5+ for complex

Verwendung von "evaluation". Set up production monitoring for quality alerts.

Erwartetes Ergebnis:

Production Monitor configured
Sample rate: 1% of interactions
Warning threshold: 85% pass rate
Critical threshold: 70% pass rate
Alert types: quality_drop, low_score, regression

Sicherheitsaudit

Sicher

v5 • 1/16/2026

This is a legitimate evaluation framework skill containing only documentation and Python evaluation logic. All 79 static findings are FALSE POSITIVES caused by the scanner misinterpreting Markdown code blocks (``` delimiters) as shell backticks, dictionary structures as key files, and floating-point score values (0.0-1.0) as cryptographic algorithms. No network calls, no credential access, no command execution, and no data exfiltration patterns exist in the actual runtime code.

Gescannte Dateien

1,280

Analysierte Zeilen

befunde

Gesamtzahl Audits

Auditiert von: claude Audit-Verlauf anzeigen →

Qualitätsbewertung

Architektur

100

Wartbarkeit

Inhalt

Community

100

Sicherheit

Spezifikationskonformität

Was du bauen kannst

Agentenleistung testen

Agentenausgaben systematisch gegen definierte Qualitätsdimensionen und Bestehensschwellenwerte messen

Kontextstrategien validieren

Vergleichen, wie verschiedene Context-Engineering-Ansätze die Agentenqualität und Token-Nutzung beeinflussen

Qualitätstrends nachverfolgen

Produktions-Agentenqualität im Zeitverlauf mit automatisiertem Sampling und Alarmsystemen überwachen

Probiere diese Prompts

Testset erstellen

Create a test set with 5 test cases of varying complexity (simple to very complex) for evaluating an agent that researches technical topics. Include complexity levels, tags, and ground truth expectations.

Bewertungsraster entwerfen

Design a multi-dimensional evaluation rubric for [use case: customer support agent]. Define 5 dimensions with weights, level descriptions from 1.0 to 0.0, and explain scoring rationale.

Evaluierung durchführen

Evaluate the following agent outputs against this rubric. For each output, provide dimension scores, overall score, and pass/fail determination with reasoning.

Pipeline aufbauen

Build an evaluation pipeline that runs on code changes. Include test set loading, parallel execution, result aggregation, and failure reporting to Slack.

Bewährte Verfahren

Automatisierte LLM-Evaluierung mit menschlicher Überprüfung für Grenzfälle und subtile Probleme kombinieren
Ergebnisse evaluieren, nicht spezifische Ausführungspfade, um mehrere gültige Agentenansätze zu berücksichtigen
Metriken im Zeitverlauf nachverfolgen, um Regressionen zu erkennen und die Auswirkungen von Optimierungen zu messen

Vermeiden

Spezifische Schritte statt Ergebnisse evaluieren, was gültige alternative Ansätze bestraft
Einzelne Metriken statt mehrdimensionale Bewertungsraster verwenden, die verschiedene Qualitätsaspekte erfassen
Nur mit unbegrenztem Kontext testen und dabei Leistungsabfälle übersehen, die bei realistischen Limits auftreten

Häufig gestellte Fragen

Welche KI-Tools und Plattformen werden unterstützt?

Kompatibel mit Claude, Claude Code und Codex. Framework-agnostisches Design funktioniert mit jedem Agenten, der Textausgaben erzeugt.

Wie viele Testfälle sollte ich einbeziehen?

Beginnen Sie während der Entwicklung mit 5-10 Tests, die verschiedene Komplexitätsstufen abdecken. Erweitern Sie auf 50-100 Tests für die Produktionsüberwachung.

Wie lässt sich dies in CI/CD-Pipelines integrieren?

Führen Sie Evaluierungsskripte als Pre-Commit-Hooks oder in CI aus. Lassen Sie Builds fehlschlagen, wenn die Bestehensrate unter Ihren definierten Schwellenwert fällt.

Werden meine Evaluierungsdaten privat gehalten?

Alle Evaluierungsläufe finden lokal in Ihrer Umgebung statt. Keine Daten werden an externe Dienste gesendet, sofern Sie dies nicht konfigurieren.

Warum sind meine Evaluierungsergebnisse inkonsistent?

Nicht-Determinismus ist bei Agentenevaluierung zu erwarten. Verwenden Sie größere Testsets und berichten Sie Konfidenzintervalle, nicht einzelne Punktwerte.

Wie schneidet dies im Vergleich zu anderen Evaluierungstools ab?

Diese Skill bietet ein leichtgewichtiges, anpassbares Framework. Für spezifische Benchmarks kombinieren Sie es mit Tools wie LangSmith oder RAGAS.