llm-evaluation
Construir planes de evaluación confiables de LLM
Также доступно от: sickn33
Necesitas formas consistentes de medir la calidad y regresiones de LLM. Esta habilidad proporciona métricas, guía de revisión humana y marcos de trabajo para una evaluación confiable de IA.
Скачать ZIP навыка
Загрузить в Claude
Перейдите в Settings → Capabilities → Skills → Upload skill
Включите и начните использовать
Протестировать
Использование «llm-evaluation». Proponer un plan de evaluación para un asistente RAG.
Ожидаемый результат:
- Métricas automatizadas: MRR, NDCG, Precisión en K
- Calificaciones humanas: exactitud, relevancia, utilidad
- LLM-juez: comparación por pares para respuestas finales
- Regla de regresión: fallar si la exactitud baja más del 5 por ciento
Использование «llm-evaluation». ¿Qué métricas debería usar para evaluar un modelo de resumir?
Ожидаемый результат:
- ROUGE para superposición de n-gramas con resúmenes de referencia
- BERTScore para similitud semántica usando embeddings
- Puntaje de factualidad para verificar afirmaciones contra texto fuente
- Evaluación de legibilidad humana para coherencia y fluidez
Использование «llm-evaluation». ¿Cómo detecto si mi modelo está regresando?
Ожидаемый результат:
- Almacena puntajes de línea base de un modelo de referencia o versión anterior
- Compara puntajes de nuevo modelo contra línea base en el mismo conjunto de prueba
- Marca métricas donde el cambio relativo excede tu umbral
- Ejecuta prueba de significancia estadística para confirmar diferencias reales
Аудит безопасности
БезопасноThis skill contains only static documentation (SKILL.md) with no executable files. All static findings are false positives: markdown code block backticks were misidentified as Ruby/shell command execution, and JSON metadata fields were misclassified as cryptographic issues. The skill provides evaluation guidance only with no data access, network activity, or command execution capability.
Факторы риска
🌐 Доступ к сети (1)
⚙️ Внешние команды (23)
Оценка качества
Что вы можете построить
Puerta de regresión en CI
Diseña una lista de verificación de evaluación y umbrales para bloquear cambios de modelo que reduzcan la calidad.
Resumen de comparación de modelos
Compara dos opciones de modelo usando calificaciones humanas y puntajes automatizados para un memo de decisión.
Plan de estudio de benchmark
Crea un plan de benchmarking con conjuntos de datos, métricas y estructura de reporte.
Попробуйте эти промпты
Crea un plan de evaluación básico con 3 métricas automatizadas y 2 criterios humanos para un chatbot de soporte al cliente.
Recomienda métricas para resumir, explica qué captura cada una, y nota una limitación por métrica.
Redacta un prompt de LLM-juez por pares para comparar respuestas A y B en exactitud, utilidad y claridad.
Describe un plan de prueba estadística para evaluación A/B, incluyendo guía de tamaño de muestra y reporte de tamaño de efecto.
Лучшие практики
- Usa múltiples métricas y revisión humana juntas
- Prueba con datos representativos y diversos
- Rastrea líneas base y significancia estadística
Избегать
- Confiar en una sola métrica
- Probar en datos de entrenamiento
- Ignorar varianza en muestras pequeñas
Часто задаваемые вопросы
¿Es esto compatible con Claude y Codex?
¿Cuáles son los límites de esta habilidad?
¿Cómo integro con mi stack?
¿Accede o almacena mis datos?
¿Qué si los puntajes son inestables?
¿Cómo es esto diferente de una lista de benchmarks?
Сведения для разработчиков
Автор
wshobsonЛицензия
MIT
Репозиторий
https://github.com/wshobson/agents/tree/main/plugins/llm-application-dev/skills/llm-evaluationСсылка
main
Структура файлов
📄 SKILL.md