evaluation
Evaluierungs-Frameworks für Agentensysteme entwickeln
Auch verfügbar von: muratcankoylan,ChakshuGautam
Agentensystemen fehlt eine zuverlässige Qualitätsmessung. Diese Skill bietet strukturierte Evaluierungs-Frameworks mit mehrdimensionalen Bewertungsrastern, Testset-Design und Produktionsüberwachung zur systematischen Messung der Agentenleistung.
Die Skill-ZIP herunterladen
In Claude hochladen
Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen
Einschalten und loslegen
Teste es
Verwendung von "evaluation". Evaluate these 3 agent responses for factual accuracy, completeness, and citation quality.
Erwartetes Ergebnis:
- Response A: Overall 0.82 (Good) - Factual: 0.9, Completeness: 0.8, Citations: 0.7 - PASS
- Response B: Overall 0.58 (Acceptable) - Factual: 0.7, Completeness: 0.5, Citations: 0.6 - NEEDS IMPROVEMENT
- Response C: Overall 0.91 (Excellent) - Factual: 1.0, Completeness: 0.85, Citations: 0.9 - PASS
- Recommendation: Focus on improving completeness for responses similar to task type B
Verwendung von "evaluation". Create a test set for a research agent.
Erwartetes Ergebnis:
- Test Set: 5 tests created
- simple_lookup: Single factual query (complexity: simple)
- context_retrieval: Preference-based recommendation (complexity: medium)
- multi_step_reasoning: Data analysis task (complexity: complex)
- Expected tool calls: 1-3 for simple, 3-5 for medium, 5+ for complex
Verwendung von "evaluation". Set up production monitoring for quality alerts.
Erwartetes Ergebnis:
- Production Monitor configured
- Sample rate: 1% of interactions
- Warning threshold: 85% pass rate
- Critical threshold: 70% pass rate
- Alert types: quality_drop, low_score, regression
Sicherheitsaudit
SicherThis is a legitimate evaluation framework skill containing only documentation and Python evaluation logic. All 79 static findings are FALSE POSITIVES caused by the scanner misinterpreting Markdown code blocks (``` delimiters) as shell backticks, dictionary structures as key files, and floating-point score values (0.0-1.0) as cryptographic algorithms. No network calls, no credential access, no command execution, and no data exfiltration patterns exist in the actual runtime code.
Risikofaktoren
⚙️ Externe Befehle (20)
🌐 Netzwerkzugriff (1)
📁 Dateisystemzugriff (1)
Qualitätsbewertung
Was du bauen kannst
Agentenleistung testen
Agentenausgaben systematisch gegen definierte Qualitätsdimensionen und Bestehensschwellenwerte messen
Kontextstrategien validieren
Vergleichen, wie verschiedene Context-Engineering-Ansätze die Agentenqualität und Token-Nutzung beeinflussen
Qualitätstrends nachverfolgen
Produktions-Agentenqualität im Zeitverlauf mit automatisiertem Sampling und Alarmsystemen überwachen
Probiere diese Prompts
Create a test set with 5 test cases of varying complexity (simple to very complex) for evaluating an agent that researches technical topics. Include complexity levels, tags, and ground truth expectations.
Design a multi-dimensional evaluation rubric for [use case: customer support agent]. Define 5 dimensions with weights, level descriptions from 1.0 to 0.0, and explain scoring rationale.
Evaluate the following agent outputs against this rubric. For each output, provide dimension scores, overall score, and pass/fail determination with reasoning.
Build an evaluation pipeline that runs on code changes. Include test set loading, parallel execution, result aggregation, and failure reporting to Slack.
Bewährte Verfahren
- Automatisierte LLM-Evaluierung mit menschlicher Überprüfung für Grenzfälle und subtile Probleme kombinieren
- Ergebnisse evaluieren, nicht spezifische Ausführungspfade, um mehrere gültige Agentenansätze zu berücksichtigen
- Metriken im Zeitverlauf nachverfolgen, um Regressionen zu erkennen und die Auswirkungen von Optimierungen zu messen
Vermeiden
- Spezifische Schritte statt Ergebnisse evaluieren, was gültige alternative Ansätze bestraft
- Einzelne Metriken statt mehrdimensionale Bewertungsraster verwenden, die verschiedene Qualitätsaspekte erfassen
- Nur mit unbegrenztem Kontext testen und dabei Leistungsabfälle übersehen, die bei realistischen Limits auftreten