llm-evaluation
Создавайте надёжные планы оценки LLM
Вам нужны последовательные способы измерения качества LLM и регрессий. Этот навык предоставляет метрики, рекомендации по human review и фреймворки тестирования для надёжной оценки ИИ.
Die Skill-ZIP herunterladen
In Claude hochladen
Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen
Einschalten und loslegen
Teste es
Verwendung von "llm-evaluation". Предложите план оценки для RAG-ассистента.
Erwartetes Ergebnis:
- Автоматизированные метрики: MRR, NDCG, Precision at K
- Оценки людей: точность, релевантность, полезность
- LLM-судья: попарное сравнение для финальных ответов
- Правило регрессии: провал, если точность падает более чем на 5 процентов
Verwendung von "llm-evaluation". Какие метрики следует использовать для оценки модели суммаризации?
Erwartetes Ergebnis:
- ROUGE для перекрытия n-грамм с эталонными суммаризациями
- BERTScore для семантического сходства с использованием эмбеддингов
- Оценка фактологичности для проверки утверждений по исходному тексту
- Оценка читаемости людьми для связности и беглости
Verwendung von "llm-evaluation". Как определить, регрессирует ли моя модель?
Erwartetes Ergebnis:
- Храните базовые показатели от референсной модели или предыдущей версии
- Сравнивайте показатели новой модели с базовыми на том же тестовом наборе
- Отмечайте метрики, где относительное изменение превышает ваш порог
- Проводите статистический тест значимости для подтверждения реальных различий
Sicherheitsaudit
SicherThis skill contains only static documentation (SKILL.md) with no executable files. All static findings are false positives: markdown code block backticks were misidentified as Ruby/shell command execution, and JSON metadata fields were misclassified as cryptographic issues. The skill provides evaluation guidance only with no data access, network activity, or command execution capability.
Risikofaktoren
🌐 Netzwerkzugriff (1)
⚙️ Externe Befehle (23)
Qualitätsbewertung
Was du bauen kannst
Регрессионный гейт в CI
Разработайте контрольный список оценки и пороговые значения для блокировки изменений модели, снижающих качество.
Бриф по сравнению моделей
Сравните два варианта моделей, используя оценки людей и автоматизированные баллы для备忘录 решений.
План исследования бенчмарков
Создайте план бенчмаркинга с наборами данных, метриками и структурой отчётности.
Probiere diese Prompts
Создайте базовый план оценки с 3 автоматизированными метриками и 2 критериями human review для чат-бота службы поддержки.
Рекомендуйте метрики для суммаризации, объясните, что каждая измеряет, и укажите одно ограничение для каждой метрики.
Составьте попарный промпт LLM-судьи для сравнения ответов A и B по точности, полезности и ясности.
Опишите план статистического тестирования для A/B оценки, включая рекомендации по размеру выборки и отчётность о размере эффекта.
Bewährte Verfahren
- Используйте несколько метрик и human review вместе
- Тестируйте с репрезентативными и разнообразными данными
- Отслеживайте базовые показатели и статистическую значимость
Vermeiden
- Опора на единственную метрику
- Тестирование на обучающих данных
- Игнорирование дисперсии в малых выборках
Häufig gestellte Fragen
Is this compatible with Claude and Codex?
What are the limits of this skill?
How do I integrate with my stack?
Does it access or store my data?
What if scores are unstable?
How is this different from a benchmark list?
Entwicklerdetails
Autor
wshobsonLizenz
MIT
Repository
https://github.com/wshobson/agents/tree/main/plugins/llm-application-dev/skills/llm-evaluationRef
main
Dateistruktur
📄 SKILL.md