المهارات evaluation
📊

evaluation

آمن ⚙️ الأوامر الخارجية🌐 الوصول إلى الشبكة📁 الوصول إلى نظام الملفات

Создание фреймворков оценки для агентских систем

متاح أيضًا من: sickn33,ChakshuGautam,muratcankoylan

Агентским системам не хватает надежного измерения качества. Этот навык предоставляет структурированные фреймворки оценки с многомерными рубриками, разработкой тестовых наборов и производственным мониторингом для систематического измерения производительности агентов.

يدعم: Claude Codex Code(CC)
🥉 76 برونزي
1

تنزيل ZIP المهارة

2

رفع في Claude

اذهب إلى Settings → Capabilities → Skills → Upload skill

3

فعّل وابدأ الاستخدام

اختبرها

استخدام "evaluation". Evaluate these 3 agent responses for factual accuracy, completeness, and citation quality.

النتيجة المتوقعة:

  • Response A: Overall 0.82 (Good) - Factual: 0.9, Completeness: 0.8, Citations: 0.7 - PASS
  • Response B: Overall 0.58 (Acceptable) - Factual: 0.7, Completeness: 0.5, Citations: 0.6 - NEEDS IMPROVEMENT
  • Response C: Overall 0.91 (Excellent) - Factual: 1.0, Completeness: 0.85, Citations: 0.9 - PASS
  • Recommendation: Focus on improving completeness for responses similar to task type B

استخدام "evaluation". Create a test set for a research agent.

النتيجة المتوقعة:

  • Test Set: 5 tests created
  • simple_lookup: Single factual query (complexity: simple)
  • context_retrieval: Preference-based recommendation (complexity: medium)
  • multi_step_reasoning: Data analysis task (complexity: complex)
  • Expected tool calls: 1-3 for simple, 3-5 for medium, 5+ for complex

استخدام "evaluation". Set up production monitoring for quality alerts.

النتيجة المتوقعة:

  • Production Monitor configured
  • Sample rate: 1% of interactions
  • Warning threshold: 85% pass rate
  • Critical threshold: 70% pass rate
  • Alert types: quality_drop, low_score, regression

التدقيق الأمني

آمن
v5 • 1/16/2026

This is a legitimate evaluation framework skill containing only documentation and Python evaluation logic. All 79 static findings are FALSE POSITIVES caused by the scanner misinterpreting Markdown code blocks (``` delimiters) as shell backticks, dictionary structures as key files, and floating-point score values (0.0-1.0) as cryptographic algorithms. No network calls, no credential access, no command execution, and no data exfiltration patterns exist in the actual runtime code.

5
الملفات التي تم فحصها
1,280
الأسطر التي تم تحليلها
3
النتائج
5
إجمالي عمليات التدقيق
تم تدقيقه بواسطة: claude عرض سجل التدقيق →

درجة الجودة

64
الهندسة المعمارية
100
قابلية الصيانة
87
المحتوى
21
المجتمع
100
الأمان
91
الامتثال للمواصفات

ماذا يمكنك بناءه

Тестирование производительности агентов

Систематическое измерение выходных данных агентов по определенным измерениям качества и пороговым значениям

Валидация стратегий контекста

Сравнение того, как различные подходы к инженерии контекста влияют на качество работы агентов и использование токенов

Отслеживание тенденций качества

Мониторинг качества работы агентов в производственной среде с течением времени с помощью автоматической выборки и систем оповещения

جرّب هذه الموجهات

Создать тестовый набор
Create a test set with 5 test cases of varying complexity (simple to very complex) for evaluating an agent that researches technical topics. Include complexity levels, tags, and ground truth expectations.
Разработать рубрику
Design a multi-dimensional evaluation rubric for [use case: customer support agent]. Define 5 dimensions with weights, level descriptions from 1.0 to 0.0, and explain scoring rationale.
Запустить оценку
Evaluate the following agent outputs against this rubric. For each output, provide dimension scores, overall score, and pass/fail determination with reasoning.
Построить конвейер
Build an evaluation pipeline that runs on code changes. Include test set loading, parallel execution, result aggregation, and failure reporting to Slack.

أفضل الممارسات

  • Сочетайте автоматизированную оценку с помощью LLM с человеческой проверкой для граничных случаев и тонких проблем
  • Оценивайте результаты, а не конкретные пути выполнения, чтобы учесть несколько допустимых подходов агента
  • Отслеживайте метрики с течением времени для обнаружения регрессий и измерения влияния оптимизаций

تجنب

  • Оценка конкретных шагов вместо результатов, что штрафует допустимые альтернативные подходы
  • Использование единичных метрик вместо многомерных рубрик, которые охватывают различные аспекты качества
  • Тестирование только с неограниченным контекстом, пропуская падения производительности, которые происходят при реалистичных ограничениях

الأسئلة المتكررة

Какие AI-инструменты и платформы поддерживаются?
Совместим с Claude, Claude Code и Codex. Фреймворк-независимый дизайн работает с любым агентом, который производит текстовые выходные данные.
Сколько тестовых случаев мне следует включить?
Начните с 5-10 тестов, охватывающих различные уровни сложности во время разработки. Расширьте до 50-100 тестов для производственного мониторинга.
Как это интегрируется с CI/CD конвейерами?
Запускайте скрипты оценки как pre-commit хуки или в CI. Прерывайте сборки, когда уровень успешности падает ниже вашего определенного порога.
Сохраняются ли мои данные оценки в конфиденциальности?
Все запуски оценки происходят локально в вашей среде. Никакие данные не отправляются во внешние сервисы, если вы это не настроите.
Почему мои оценки непостоянны?
Недетерминизм ожидается при оценке агентов. Используйте более крупные тестовые наборы и сообщайте доверительные интервалы, а не единичные оценки.
Как это сравнивается с другими инструментами оценки?
Этот навык предоставляет легковесный, настраиваемый фреймворк. Для конкретных бенчмарков комбинируйте с инструментами вроде LangSmith или RAGAS.

تفاصيل المطور

المؤلف

Asmayaseen

الترخيص

MIT

مرجع

main

بنية الملفات