المهارات evaluation
📊

evaluation

آمن ⚙️ الأوامر الخارجية🌐 الوصول إلى الشبكة

Оценка производительности агентов с помощью рубрик

متاح أيضًا من: sickn33,ChakshuGautam,Asmayaseen

Измерение качества агентов требует структурированных подходов. Этот навык предоставляет многомерные оценочные рубрики, управление тестовыми наборами и производственный мониторинг для непрерывной оценки и улучшения производительности агентов.

يدعم: Claude Codex Code(CC)
🥉 76 برونزي
1

تنزيل ZIP المهارة

2

رفع في Claude

اذهب إلى Settings → Capabilities → Skills → Upload skill

3

فعّل وابدأ الاستخدام

اختبرها

استخدام "evaluation". Evaluate my research agent on 5 test cases about technology trends

النتيجة المتوقعة:

  • Overall Pass Rate: 80% (4/5 tests passed)
  • Factual Accuracy: 0.85 (Good)
  • Completeness: 0.72 (Good)
  • Citation Accuracy: 0.65 (Acceptable)
  • Tool Efficiency: 0.78 (Good)
  • Dimension requiring attention: Citation Accuracy

استخدام "evaluation". Create a rubric for coding agent quality assessment

النتيجة المتوقعة:

  • Rubric dimensions defined:
  • - Code Correctness (weight: 0.35)
  • - Code Efficiency (weight: 0.20)
  • - Documentation Quality (weight: 0.15)
  • - Test Coverage (weight: 0.15)
  • - Error Handling (weight: 0.15)
  • Passing threshold: 0.70 weighted average

التدقيق الأمني

آمن
v4 • 1/17/2026

Pure evaluation framework using only standard Python library imports. No network access, file system operations, or command execution detected. Static findings are false positives from misidentified patterns: markdown code blocks were flagged as Ruby backticks, rubric weights as crypto parameters, and SHA256 hashes as certificates.

4
الملفات التي تم فحصها
1,248
الأسطر التي تم تحليلها
2
النتائج
4
إجمالي عمليات التدقيق
تم تدقيقه بواسطة: claude عرض سجل التدقيق →

درجة الجودة

64
الهندسة المعمارية
100
قابلية الصيانة
87
المحتوى
21
المجتمع
100
الأمان
91
الامتثال للمواصفات

ماذا يمكنك بناءه

Создание тестовых фреймворков

Создавайте структурированные тестовые наборы с рубриками для систематической оценки качества агентов по нескольким измерениям.

Контроль качества в CI/CD

Интегрируйте проверки оценки в конвейеры развёртывания для выявления регрессий до вывода агентов в производство.

Сравнение конфигураций агентов

Измеряйте, как различные стратегии контекста или выбор модели влияют на качество выходных данных агента с течением времени.

جرّب هذه الموجهات

Создать рубрику
Create an evaluation rubric for [task_type] that measures factual_accuracy, completeness, and tool_efficiency. Assign weights to each dimension based on importance.
Построить тестовый набор
Build a test set with 10 cases spanning simple, medium, and complex complexity levels for evaluating [agent_type] on [use_case].
Запустить оценку
Evaluate the following agent outputs against the test set. Calculate dimension scores and overall pass/fail. Report: [agent_outputs]
Мониторинг производственной среды
Analyze production samples from the last 24 hours. Calculate pass rate, average score, and identify any quality degradation patterns.

أفضل الممارسات

  • Используйте многомерные рубрики вместо отдельных метрик для охвата различных аспектов качества
  • Стратифицируйте тестовые наборы по уровню сложности для выявления проблемных мест агентов
  • Запускайте оценки непрерывно для выявления регрессий перед развёртыванием в производство

تجنب

  • Оценка конкретных шагов выполнения вместо результатов
  • Использование только автоматизированной оценки LLM без проверки человеком
  • Пренебрежение пограничными случаями при проектировании тестового набора

الأسئلة المتكررة

Какие AI платформы поддерживают этот навык?
Works with Claude, Codex, and Claude Code. Evaluation logic is platform-agnostic.
Сколько тестовых случаев я должен включить?
Start with 10-20 cases covering different complexity levels. Expand based on coverage gaps.
Могу ли я интегрироваться с существующими конвейерами CI/CD?
Yes. The evaluation classes return structured results suitable for programmatic pipeline integration.
Сохраняет ли этот навык какие-либо пользовательские данные?
No. This is a computation-only library. All evaluation data stays in your session memory.
Какие измерения следует приоритизировать?
Depends on your use case. Factual accuracy matters most for information retrieval. Completeness matters more for synthesis tasks.
Чем это отличается от стандартных бенчмарков LLM?
Standard benchmarks test general capability. This skill lets you create custom evaluations specific to your agent and use case.

تفاصيل المطور

بنية الملفات