📊

evaluation

Name: evaluation
Author: muratcankoylan

آمن ⚙️ الأوامر الخارجية🌐 الوصول إلى الشبكة

Оценка производительности агентов с помощью рубрик

متاح أيضًا من: sickn33,ChakshuGautam,Asmayaseen

Измерение качества агентов требует структурированных подходов. Этот навык предоставляет многомерные оценочные рубрики, управление тестовыми наборами и производственный мониторинг для непрерывной оценки и улучшения производительности агентов.

يدعم: Claude Codex Code(CC)

🥉 76 برونزي

تنزيل ZIP المهارة

رفع في Claude

اذهب إلى Settings → Capabilities → Skills → Upload skill

فعّل وابدأ الاستخدام

اختبرها

استخدام "evaluation". Evaluate my research agent on 5 test cases about technology trends

النتيجة المتوقعة:

Overall Pass Rate: 80% (4/5 tests passed)
Factual Accuracy: 0.85 (Good)
Completeness: 0.72 (Good)
Citation Accuracy: 0.65 (Acceptable)
Tool Efficiency: 0.78 (Good)
Dimension requiring attention: Citation Accuracy

استخدام "evaluation". Create a rubric for coding agent quality assessment

النتيجة المتوقعة:

Rubric dimensions defined:
- Code Correctness (weight: 0.35)
- Code Efficiency (weight: 0.20)
- Documentation Quality (weight: 0.15)
- Test Coverage (weight: 0.15)
- Error Handling (weight: 0.15)
Passing threshold: 0.70 weighted average

التدقيق الأمني

آمن

v4 • 1/17/2026

Pure evaluation framework using only standard Python library imports. No network access, file system operations, or command execution detected. Static findings are false positives from misidentified patterns: markdown code blocks were flagged as Ruby backticks, rubric weights as crypto parameters, and SHA256 hashes as certificates.

الملفات التي تم فحصها

1,248

الأسطر التي تم تحليلها

النتائج

إجمالي عمليات التدقيق

تم تدقيقه بواسطة: claude عرض سجل التدقيق →

درجة الجودة

الهندسة المعمارية

100

قابلية الصيانة

المحتوى

المجتمع

100

الأمان

الامتثال للمواصفات

ماذا يمكنك بناءه

Создание тестовых фреймворков

Создавайте структурированные тестовые наборы с рубриками для систематической оценки качества агентов по нескольким измерениям.

Контроль качества в CI/CD

Интегрируйте проверки оценки в конвейеры развёртывания для выявления регрессий до вывода агентов в производство.

Сравнение конфигураций агентов

Измеряйте, как различные стратегии контекста или выбор модели влияют на качество выходных данных агента с течением времени.

جرّب هذه الموجهات

Создать рубрику

Create an evaluation rubric for [task_type] that measures factual_accuracy, completeness, and tool_efficiency. Assign weights to each dimension based on importance.

Построить тестовый набор

Build a test set with 10 cases spanning simple, medium, and complex complexity levels for evaluating [agent_type] on [use_case].

Запустить оценку

Evaluate the following agent outputs against the test set. Calculate dimension scores and overall pass/fail. Report: [agent_outputs]

Мониторинг производственной среды

Analyze production samples from the last 24 hours. Calculate pass rate, average score, and identify any quality degradation patterns.

أفضل الممارسات

Используйте многомерные рубрики вместо отдельных метрик для охвата различных аспектов качества
Стратифицируйте тестовые наборы по уровню сложности для выявления проблемных мест агентов
Запускайте оценки непрерывно для выявления регрессий перед развёртыванием в производство