Compétences advanced-evaluation

📊

advanced-evaluation

Name: advanced-evaluation
Author: muratcankoylan

Sûr ⚙️ Commandes externes🌐 Accès réseau

Оценка выходных данных LLM с помощью надежного подсчета баллов

Également disponible depuis: ChakshuGautam

Ручная оценка выходных данных LLM медленная и непоследовательная между рецензентами. Этот навык предоставляет производственные методы автоматизированной оценки с использованием LLM в качестве судей. Он включает прямые оценочные рубрики, попарное сравнение с устранением позиционной погрешности и калибровку достоверности.

Prend en charge: Claude Codex Code(CC)

🥈 77 Argent

Télécharger le ZIP du skill

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

Activez et commencez à utiliser

Tester

Utilisation de "advanced-evaluation". Оцените по точности, ясности, полноте: 'Квантовая запутанность похожа на две связанные монеты. Когда одна показывает орла, другая показывает решку мгновенно.'

Résultat attendu:

Точность: 4/5 - Правильно описывает коррелированные результаты, но упрощает квантовую механику
Ясность: 5/5 - Отличная аналогия для широкой аудитории
Полнота: 3/5 - Отсутствуют ключевые детали о квантовых системах
Общее: 4/5 - Хорошо для начинающих, но может включать больше научной глубины

Utilisation de "advanced-evaluation". Сравните эти два объяснения машинного обучения. A: Техническое определение с алгоритмами. B: Аналогия с дрессировкой собак.

Résultat attendu:

Ясность: B выигрывает - Аналогия более доступна для начинающих
Точность: Ничья - Оба передают правильные основные концепции
Случай использования: Выберите A для технической аудитории, B для широкой аудитории

Audit de sécurité

Sûr

v4 • 1/17/2026

Pure documentation skill containing evaluation methodologies, prompt templates, and pseudocode examples. All static findings are false positives: markdown code fences are misidentified as shell backticks, statistical formulas are misidentified as weak crypto, and academic reference URLs are not network calls. No executable code, file I/O, or data exfiltration patterns exist.

Fichiers analysés

2,084

Lignes analysées

résultats

Total des audits

Facteurs de risque

⚙️ Commandes externes (122)

🌐 Accès réseau (5)

skill-report.json:6 SKILL.md:436 SKILL.md:437 SKILL.md:438 SKILL.md:439

Audité par: claude Voir l’historique des audits →

Score de qualité

Architecture

100

Maintenabilité

Contenu

Communauté

100

Sécurité

Conformité aux spécifications

Ce que vous pouvez construire

Автоматизировать сравнение моделей

Сравнивать выходные данные нескольких моделей для выбора лучшего ответа для производственных подсказок

Оценивать новые техники

Систематически оценивать, улучшают ли стратегии подсказок качество выходных данных

Отслеживать качество выходных данных

Отслеживать метрики качества в производственных развертываниях с течением времени

Essayez ces prompts

Прямой подсчет баллов

Оцените этот ответ по шкале от 1 до 5 по точности, ясности и полноте. Предоставьте баллы с конкретными доказательствами и предложениями по улучшению. Ответ: {response}

Попарное сравнение

Сравните Ответ A и Ответ B для данной подсказки. Игнорируйте длину. Укажите, какой лучше, и объясните почему с конкретными критериями. A: {response_a}, B: {response_b}

Создание рубрики

Создайте рубрику от 1 до 5 для оценки {criterion} в {domain}. Включите описания уровней и конкретные наблюдаемые характеристики для каждого балла.

Оценка погрешности

Проанализируйте этот результат оценки на наличие позиционной погрешности, погрешности по длине или погрешности по авторитету. Проверьте, применялись ли критерии последовательно. Оценка: {evaluation_result}

Bonnes pratiques

Всегда требуйте обоснование перед баллами - цепочка мыслей повышает надежность на 15-25%
Используйте замену позиций в попарном сравнении для устранения позиционной погрешности
Отделяйте объективные критерии (используйте прямой подсчет) от субъективных предпочтений (используйте попарное сравнение)

Éviter

Однопроходное попарное сравнение без замены позиций создает систематическую позиционную погрешность
Подсчет баллов без требования доказательств делает оценки неотлаживаемыми и ненадежными
Использование одной и той же модели для генерации и оценки вызывает погрешность самопродвижения

Foire aux questions

Какие модели лучше всего работают для LLM-как-судья?

GPT-4 и Claude 3 показывают наивысшее согласие с человеческими судьями. Меньшие модели подходят для первичного отсева.

Сколько критериев должны иметь рубрики?

Ограничьте 5-7 критериями на рубрику. Больше критериев снижает надежность и увеличивает когнитивную нагрузку.

Могу ли я использовать это с моим собственным LLM API?

Да. Этот навык предоставляет подсказки и шаблоны. Интегрируйте с вашим LLM API для фактического подсчета баллов.

Отправляет ли это данные внешним системам?

Нет. Этот навык генерирует только оценочные подсказки. Сетевые вызовы или передача данных не происходят.

Почему сравнения приводят к ничьим?

Ничьи указывают на обнаруженную позиционную погрешность или на то, что ответы действительно эквивалентны. Возвращайте ничью с пониженной достоверностью.

Как это сравнивается с человеческой оценкой?

Оценка LLM хорошо коррелирует с людьми во многих задачах, но не может заменить человеческое суждение для субъективных решений.