evaluation
Создание фреймворков оценки для агентских систем
متاح أيضًا من: sickn33,ChakshuGautam,muratcankoylan
Агентским системам не хватает надежного измерения качества. Этот навык предоставляет структурированные фреймворки оценки с многомерными рубриками, разработкой тестовых наборов и производственным мониторингом для систематического измерения производительности агентов.
تنزيل ZIP المهارة
رفع في Claude
اذهب إلى Settings → Capabilities → Skills → Upload skill
فعّل وابدأ الاستخدام
اختبرها
استخدام "evaluation". Evaluate these 3 agent responses for factual accuracy, completeness, and citation quality.
النتيجة المتوقعة:
- Response A: Overall 0.82 (Good) - Factual: 0.9, Completeness: 0.8, Citations: 0.7 - PASS
- Response B: Overall 0.58 (Acceptable) - Factual: 0.7, Completeness: 0.5, Citations: 0.6 - NEEDS IMPROVEMENT
- Response C: Overall 0.91 (Excellent) - Factual: 1.0, Completeness: 0.85, Citations: 0.9 - PASS
- Recommendation: Focus on improving completeness for responses similar to task type B
استخدام "evaluation". Create a test set for a research agent.
النتيجة المتوقعة:
- Test Set: 5 tests created
- simple_lookup: Single factual query (complexity: simple)
- context_retrieval: Preference-based recommendation (complexity: medium)
- multi_step_reasoning: Data analysis task (complexity: complex)
- Expected tool calls: 1-3 for simple, 3-5 for medium, 5+ for complex
استخدام "evaluation". Set up production monitoring for quality alerts.
النتيجة المتوقعة:
- Production Monitor configured
- Sample rate: 1% of interactions
- Warning threshold: 85% pass rate
- Critical threshold: 70% pass rate
- Alert types: quality_drop, low_score, regression
التدقيق الأمني
آمنThis is a legitimate evaluation framework skill containing only documentation and Python evaluation logic. All 79 static findings are FALSE POSITIVES caused by the scanner misinterpreting Markdown code blocks (``` delimiters) as shell backticks, dictionary structures as key files, and floating-point score values (0.0-1.0) as cryptographic algorithms. No network calls, no credential access, no command execution, and no data exfiltration patterns exist in the actual runtime code.
عوامل الخطر
⚙️ الأوامر الخارجية (20)
🌐 الوصول إلى الشبكة (1)
📁 الوصول إلى نظام الملفات (1)
درجة الجودة
ماذا يمكنك بناءه
Тестирование производительности агентов
Систематическое измерение выходных данных агентов по определенным измерениям качества и пороговым значениям
Валидация стратегий контекста
Сравнение того, как различные подходы к инженерии контекста влияют на качество работы агентов и использование токенов
Отслеживание тенденций качества
Мониторинг качества работы агентов в производственной среде с течением времени с помощью автоматической выборки и систем оповещения
جرّب هذه الموجهات
Create a test set with 5 test cases of varying complexity (simple to very complex) for evaluating an agent that researches technical topics. Include complexity levels, tags, and ground truth expectations.
Design a multi-dimensional evaluation rubric for [use case: customer support agent]. Define 5 dimensions with weights, level descriptions from 1.0 to 0.0, and explain scoring rationale.
Evaluate the following agent outputs against this rubric. For each output, provide dimension scores, overall score, and pass/fail determination with reasoning.
Build an evaluation pipeline that runs on code changes. Include test set loading, parallel execution, result aggregation, and failure reporting to Slack.
أفضل الممارسات
- Сочетайте автоматизированную оценку с помощью LLM с человеческой проверкой для граничных случаев и тонких проблем
- Оценивайте результаты, а не конкретные пути выполнения, чтобы учесть несколько допустимых подходов агента
- Отслеживайте метрики с течением времени для обнаружения регрессий и измерения влияния оптимизаций
تجنب
- Оценка конкретных шагов вместо результатов, что штрафует допустимые альтернативные подходы
- Использование единичных метрик вместо многомерных рубрик, которые охватывают различные аспекты качества
- Тестирование только с неограниченным контекстом, пропуская падения производительности, которые происходят при реалистичных ограничениях