llm-evaluation
Construir planes de evaluación confiables de LLM
Necesitas formas consistentes de medir la calidad y regresiones de LLM. Esta habilidad proporciona métricas, guía de revisión humana y marcos de trabajo para una evaluación confiable de IA.
Descargar el ZIP de la skill
Subir en Claude
Ve a Configuración → Capacidades → Skills → Subir skill
Activa y empieza a usar
Pruébalo
Usando "llm-evaluation". Proponer un plan de evaluación para un asistente RAG.
Resultado esperado:
- Métricas automatizadas: MRR, NDCG, Precisión en K
- Calificaciones humanas: exactitud, relevancia, utilidad
- LLM-juez: comparación por pares para respuestas finales
- Regla de regresión: fallar si la exactitud baja más del 5 por ciento
Usando "llm-evaluation". ¿Qué métricas debería usar para evaluar un modelo de resumir?
Resultado esperado:
- ROUGE para superposición de n-gramas con resúmenes de referencia
- BERTScore para similitud semántica usando embeddings
- Puntaje de factualidad para verificar afirmaciones contra texto fuente
- Evaluación de legibilidad humana para coherencia y fluidez
Usando "llm-evaluation". ¿Cómo detecto si mi modelo está regresando?
Resultado esperado:
- Almacena puntajes de línea base de un modelo de referencia o versión anterior
- Compara puntajes de nuevo modelo contra línea base en el mismo conjunto de prueba
- Marca métricas donde el cambio relativo excede tu umbral
- Ejecuta prueba de significancia estadística para confirmar diferencias reales
Auditoría de seguridad
SeguroThis skill contains only static documentation (SKILL.md) with no executable files. All static findings are false positives: markdown code block backticks were misidentified as Ruby/shell command execution, and JSON metadata fields were misclassified as cryptographic issues. The skill provides evaluation guidance only with no data access, network activity, or command execution capability.
Factores de riesgo
🌐 Acceso a red (1)
⚙️ Comandos externos (23)
Puntuación de calidad
Lo que puedes crear
Puerta de regresión en CI
Diseña una lista de verificación de evaluación y umbrales para bloquear cambios de modelo que reduzcan la calidad.
Resumen de comparación de modelos
Compara dos opciones de modelo usando calificaciones humanas y puntajes automatizados para un memo de decisión.
Plan de estudio de benchmark
Crea un plan de benchmarking con conjuntos de datos, métricas y estructura de reporte.
Prueba estos prompts
Crea un plan de evaluación básico con 3 métricas automatizadas y 2 criterios humanos para un chatbot de soporte al cliente.
Recomienda métricas para resumir, explica qué captura cada una, y nota una limitación por métrica.
Redacta un prompt de LLM-juez por pares para comparar respuestas A y B en exactitud, utilidad y claridad.
Describe un plan de prueba estadística para evaluación A/B, incluyendo guía de tamaño de muestra y reporte de tamaño de efecto.
Mejores prácticas
- Usa múltiples métricas y revisión humana juntas
- Prueba con datos representativos y diversos
- Rastrea líneas base y significancia estadística
Evitar
- Confiar en una sola métrica
- Probar en datos de entrenamiento
- Ignorar varianza en muestras pequeñas
Preguntas frecuentes
¿Es esto compatible con Claude y Codex?
¿Cuáles son los límites de esta habilidad?
¿Cómo integro con mi stack?
¿Accede o almacena mis datos?
¿Qué si los puntajes son inestables?
¿Cómo es esto diferente de una lista de benchmarks?
Detalles del desarrollador
Autor
wshobsonLicencia
MIT
Repositorio
https://github.com/wshobson/agents/tree/main/plugins/llm-application-dev/skills/llm-evaluationRef.
main
Estructura de archivos
📄 SKILL.md