🧪

llm-evaluation

Name: llm-evaluation
Author: wshobson

Безопасно 🌐 Доступ к сети⚙️ Внешние команды

Создавайте надёжные планы оценки LLM

Также доступно от: sickn33

Вам нужны последовательные способы измерения качества LLM и регрессий. Этот навык предоставляет метрики, рекомендации по human review и фреймворки тестирования для надёжной оценки ИИ.

Поддерживает: Claude Codex Code(CC)

📊 69 Адекватно

Скачать ZIP навыка

Загрузить в Claude

Перейдите в Settings → Capabilities → Skills → Upload skill

Включите и начните использовать

Протестировать

Использование «llm-evaluation». Предложите план оценки для RAG-ассистента.

Ожидаемый результат:

Автоматизированные метрики: MRR, NDCG, Precision at K
Оценки людей: точность, релевантность, полезность
LLM-судья: попарное сравнение для финальных ответов
Правило регрессии: провал, если точность падает более чем на 5 процентов

Использование «llm-evaluation». Какие метрики следует использовать для оценки модели суммаризации?

Ожидаемый результат:

ROUGE для перекрытия n-грамм с эталонными суммаризациями
BERTScore для семантического сходства с использованием эмбеддингов
Оценка фактологичности для проверки утверждений по исходному тексту
Оценка читаемости людьми для связности и беглости

Использование «llm-evaluation». Как определить, регрессирует ли моя модель?

Ожидаемый результат:

Храните базовые показатели от референсной модели или предыдущей версии
Сравнивайте показатели новой модели с базовыми на том же тестовом наборе
Отмечайте метрики, где относительное изменение превышает ваш порог
Проводите статистический тест значимости для подтверждения реальных различий

Аудит безопасности

Безопасно

v4 • 1/17/2026

This skill contains only static documentation (SKILL.md) with no executable files. All static findings are false positives: markdown code block backticks were misidentified as Ruby/shell command execution, and JSON metadata fields were misclassified as cryptographic issues. The skill provides evaluation guidance only with no data access, network activity, or command execution capability.

Просканировано файлов

649

Проанализировано строк

находки

Всего аудитов

Факторы риска

🌐 Доступ к сети (1)

skill-report.json:6

⚙️ Внешние команды (23)

Проверено: claude Посмотреть историю аудитов →

Оценка качества

Архитектура

100

Сопровождаемость

Контент

Сообщество

100

Безопасность

Соответствие спецификации

Что вы можете построить

Регрессионный гейт в CI

Разработайте контрольный список оценки и пороговые значения для блокировки изменений модели, снижающих качество.

Бриф по сравнению моделей

Сравните два варианта моделей, используя оценки людей и автоматизированные баллы для备忘录 решений.

План исследования бенчмарков

Создайте план бенчмаркинга с наборами данных, метриками и структурой отчётности.

Попробуйте эти промпты

Начальный план оценки

Создайте базовый план оценки с 3 автоматизированными метриками и 2 критериями human review для чат-бота службы поддержки.

Руководство по выбору метрик

Рекомендуйте метрики для суммаризации, объясните, что каждая измеряет, и укажите одно ограничение для каждой метрики.

Промпт LLM-судьи

Составьте попарный промпт LLM-судьи для сравнения ответов A и B по точности, полезности и ясности.

A/B тест анализ

Опишите план статистического тестирования для A/B оценки, включая рекомендации по размеру выборки и отчётность о размере эффекта.

Лучшие практики

Используйте несколько метрик и human review вместе
Тестируйте с репрезентативными и разнообразными данными
Отслеживайте базовые показатели и статистическую значимость

Избегать

Опора на единственную метрику
Тестирование на обучающих данных
Игнорирование дисперсии в малых выборках

Часто задаваемые вопросы

Is this compatible with Claude and Codex?

Да, рекомендации не зависят от модели и применимы к Claude, Codex, Claude Code и другим LLM.

What are the limits of this skill?

Он предоставляет рекомендации и примеры, но не исполняемый конвейер оценки в этом каталоге.

How do I integrate with my stack?

Сопоставьте метрики и рабочие процессы с вашими существующими инструментами оценки или CI.

Does it access or store my data?

Нет, это статическая документация, которая не читает и не передаёт данные.

What if scores are unstable?

Увеличьте размер выборки, проверьте дисперсию и добавьте валидацию людьми перед принятием решений.

How is this different from a benchmark list?

Он объединяет метрики, human review и стратегию тестирования, а не просто перечисляет бенчмарки.

Сведения для разработчиков

Автор

wshobson

Лицензия

MIT

Репозиторий

https://github.com/wshobson/agents/tree/main/plugins/llm-application-dev/skills/llm-evaluation

Ссылка

main

Структура файлов

📄 SKILL.md