advanced-evaluation
Оценка выходных данных LLM с помощью надежного подсчета баллов
Également disponible depuis: ChakshuGautam
Ручная оценка выходных данных LLM медленная и непоследовательная между рецензентами. Этот навык предоставляет производственные методы автоматизированной оценки с использованием LLM в качестве судей. Он включает прямые оценочные рубрики, попарное сравнение с устранением позиционной погрешности и калибровку достоверности.
Télécharger le ZIP du skill
Importer dans Claude
Allez dans Paramètres → Capacités → Skills → Importer un skill
Activez et commencez à utiliser
Tester
Utilisation de "advanced-evaluation". Оцените по точности, ясности, полноте: 'Квантовая запутанность похожа на две связанные монеты. Когда одна показывает орла, другая показывает решку мгновенно.'
Résultat attendu:
- Точность: 4/5 - Правильно описывает коррелированные результаты, но упрощает квантовую механику
- Ясность: 5/5 - Отличная аналогия для широкой аудитории
- Полнота: 3/5 - Отсутствуют ключевые детали о квантовых системах
- Общее: 4/5 - Хорошо для начинающих, но может включать больше научной глубины
Utilisation de "advanced-evaluation". Сравните эти два объяснения машинного обучения. A: Техническое определение с алгоритмами. B: Аналогия с дрессировкой собак.
Résultat attendu:
- Ясность: B выигрывает - Аналогия более доступна для начинающих
- Точность: Ничья - Оба передают правильные основные концепции
- Случай использования: Выберите A для технической аудитории, B для широкой аудитории
Audit de sécurité
SûrPure documentation skill containing evaluation methodologies, prompt templates, and pseudocode examples. All static findings are false positives: markdown code fences are misidentified as shell backticks, statistical formulas are misidentified as weak crypto, and academic reference URLs are not network calls. No executable code, file I/O, or data exfiltration patterns exist.
Facteurs de risque
⚙️ Commandes externes (122)
🌐 Accès réseau (5)
Score de qualité
Ce que vous pouvez construire
Автоматизировать сравнение моделей
Сравнивать выходные данные нескольких моделей для выбора лучшего ответа для производственных подсказок
Оценивать новые техники
Систематически оценивать, улучшают ли стратегии подсказок качество выходных данных
Отслеживать качество выходных данных
Отслеживать метрики качества в производственных развертываниях с течением времени
Essayez ces prompts
Оцените этот ответ по шкале от 1 до 5 по точности, ясности и полноте. Предоставьте баллы с конкретными доказательствами и предложениями по улучшению. Ответ: {response}Сравните Ответ A и Ответ B для данной подсказки. Игнорируйте длину. Укажите, какой лучше, и объясните почему с конкретными критериями. A: {response_a}, B: {response_b}Создайте рубрику от 1 до 5 для оценки {criterion} в {domain}. Включите описания уровней и конкретные наблюдаемые характеристики для каждого балла.Проанализируйте этот результат оценки на наличие позиционной погрешности, погрешности по длине или погрешности по авторитету. Проверьте, применялись ли критерии последовательно. Оценка: {evaluation_result}Bonnes pratiques
- Всегда требуйте обоснование перед баллами - цепочка мыслей повышает надежность на 15-25%
- Используйте замену позиций в попарном сравнении для устранения позиционной погрешности
- Отделяйте объективные критерии (используйте прямой подсчет) от субъективных предпочтений (используйте попарное сравнение)
Éviter
- Однопроходное попарное сравнение без замены позиций создает систематическую позиционную погрешность
- Подсчет баллов без требования доказательств делает оценки неотлаживаемыми и ненадежными
- Использование одной и той же модели для генерации и оценки вызывает погрешность самопродвижения