📊

evaluation

Name: evaluation
Author: Asmayaseen

Безопасно ⚙️ Внешние команды🌐 Доступ к сети📁 Доступ к файловой системе

Создание фреймворков оценки для агентских систем

Также доступно от: ChakshuGautam,muratcankoylan,sickn33

Агентским системам не хватает надежного измерения качества. Этот навык предоставляет структурированные фреймворки оценки с многомерными рубриками, разработкой тестовых наборов и производственным мониторингом для систематического измерения производительности агентов.

Поддерживает: Claude Codex Code(CC)

🥉 76 Бронза

Скачать ZIP навыка

Загрузить в Claude

Перейдите в Settings → Capabilities → Skills → Upload skill

Включите и начните использовать

Протестировать

Использование «evaluation». Evaluate these 3 agent responses for factual accuracy, completeness, and citation quality.

Ожидаемый результат:

Response A: Overall 0.82 (Good) - Factual: 0.9, Completeness: 0.8, Citations: 0.7 - PASS
Response B: Overall 0.58 (Acceptable) - Factual: 0.7, Completeness: 0.5, Citations: 0.6 - NEEDS IMPROVEMENT
Response C: Overall 0.91 (Excellent) - Factual: 1.0, Completeness: 0.85, Citations: 0.9 - PASS
Recommendation: Focus on improving completeness for responses similar to task type B

Использование «evaluation». Create a test set for a research agent.

Ожидаемый результат:

Test Set: 5 tests created
simple_lookup: Single factual query (complexity: simple)
context_retrieval: Preference-based recommendation (complexity: medium)
multi_step_reasoning: Data analysis task (complexity: complex)
Expected tool calls: 1-3 for simple, 3-5 for medium, 5+ for complex

Использование «evaluation». Set up production monitoring for quality alerts.

Ожидаемый результат:

Production Monitor configured
Sample rate: 1% of interactions
Warning threshold: 85% pass rate
Critical threshold: 70% pass rate
Alert types: quality_drop, low_score, regression

Аудит безопасности

Безопасно

v5 • 1/16/2026

This is a legitimate evaluation framework skill containing only documentation and Python evaluation logic. All 79 static findings are FALSE POSITIVES caused by the scanner misinterpreting Markdown code blocks (``` delimiters) as shell backticks, dictionary structures as key files, and floating-point score values (0.0-1.0) as cryptographic algorithms. No network calls, no credential access, no command execution, and no data exfiltration patterns exist in the actual runtime code.

Просканировано файлов

1,280

Проанализировано строк

находки

Всего аудитов

Факторы риска

⚙️ Внешние команды (20)

🌐 Доступ к сети (1)

skill-report.json:6

📁 Доступ к файловой системе (1)

skill-report.json:6

Проверено: claude Посмотреть историю аудитов →

Оценка качества

Архитектура

100

Сопровождаемость

Контент

Сообщество

100

Безопасность

Соответствие спецификации

Что вы можете построить

Тестирование производительности агентов

Систематическое измерение выходных данных агентов по определенным измерениям качества и пороговым значениям

Валидация стратегий контекста

Сравнение того, как различные подходы к инженерии контекста влияют на качество работы агентов и использование токенов

Отслеживание тенденций качества

Мониторинг качества работы агентов в производственной среде с течением времени с помощью автоматической выборки и систем оповещения

Попробуйте эти промпты

Создать тестовый набор

Create a test set with 5 test cases of varying complexity (simple to very complex) for evaluating an agent that researches technical topics. Include complexity levels, tags, and ground truth expectations.

Разработать рубрику

Design a multi-dimensional evaluation rubric for [use case: customer support agent]. Define 5 dimensions with weights, level descriptions from 1.0 to 0.0, and explain scoring rationale.

Запустить оценку

Evaluate the following agent outputs against this rubric. For each output, provide dimension scores, overall score, and pass/fail determination with reasoning.

Построить конвейер

Build an evaluation pipeline that runs on code changes. Include test set loading, parallel execution, result aggregation, and failure reporting to Slack.

Лучшие практики

Сочетайте автоматизированную оценку с помощью LLM с человеческой проверкой для граничных случаев и тонких проблем
Оценивайте результаты, а не конкретные пути выполнения, чтобы учесть несколько допустимых подходов агента
Отслеживайте метрики с течением времени для обнаружения регрессий и измерения влияния оптимизаций

Избегать

Оценка конкретных шагов вместо результатов, что штрафует допустимые альтернативные подходы
Использование единичных метрик вместо многомерных рубрик, которые охватывают различные аспекты качества
Тестирование только с неограниченным контекстом, пропуская падения производительности, которые происходят при реалистичных ограничениях

Часто задаваемые вопросы

Какие AI-инструменты и платформы поддерживаются?

Совместим с Claude, Claude Code и Codex. Фреймворк-независимый дизайн работает с любым агентом, который производит текстовые выходные данные.

Сколько тестовых случаев мне следует включить?

Начните с 5-10 тестов, охватывающих различные уровни сложности во время разработки. Расширьте до 50-100 тестов для производственного мониторинга.

Как это интегрируется с CI/CD конвейерами?

Запускайте скрипты оценки как pre-commit хуки или в CI. Прерывайте сборки, когда уровень успешности падает ниже вашего определенного порога.

Сохраняются ли мои данные оценки в конфиденциальности?

Все запуски оценки происходят локально в вашей среде. Никакие данные не отправляются во внешние сервисы, если вы это не настроите.

Почему мои оценки непостоянны?

Недетерминизм ожидается при оценке агентов. Используйте более крупные тестовые наборы и сообщайте доверительные интервалы, а не единичные оценки.

Как это сравнивается с другими инструментами оценки?

Этот навык предоставляет легковесный, настраиваемый фреймворк. Для конкретных бенчмарков комбинируйте с инструментами вроде LangSmith или RAGAS.

Сведения для разработчиков

Автор

Asmayaseen

Лицензия

MIT

Репозиторий

https://github.com/Asmayaseen/hackathon-2/tree/main/.claude/skills/evaluation

Ссылка

main

Структура файлов

📁 references/

📄 metrics.md

📁 scripts/

📄 evaluator.py

📄 verify.py

📄 SKILL.md