Habilidades llm-evaluation
🧪

llm-evaluation

Seguro 🌐 Acceso a red⚙️ Comandos externos

Construir planes de evaluación confiables de LLM

Necesitas formas consistentes de medir la calidad y regresiones de LLM. Esta habilidad proporciona métricas, guía de revisión humana y marcos de trabajo para una evaluación confiable de IA.

Soporta: Claude Codex Code(CC)
📊 69 Adecuado
1

Descargar el ZIP de la skill

2

Subir en Claude

Ve a Configuración → Capacidades → Skills → Subir skill

3

Activa y empieza a usar

Pruébalo

Usando "llm-evaluation". Proponer un plan de evaluación para un asistente RAG.

Resultado esperado:

  • Métricas automatizadas: MRR, NDCG, Precisión en K
  • Calificaciones humanas: exactitud, relevancia, utilidad
  • LLM-juez: comparación por pares para respuestas finales
  • Regla de regresión: fallar si la exactitud baja más del 5 por ciento

Usando "llm-evaluation". ¿Qué métricas debería usar para evaluar un modelo de resumir?

Resultado esperado:

  • ROUGE para superposición de n-gramas con resúmenes de referencia
  • BERTScore para similitud semántica usando embeddings
  • Puntaje de factualidad para verificar afirmaciones contra texto fuente
  • Evaluación de legibilidad humana para coherencia y fluidez

Usando "llm-evaluation". ¿Cómo detecto si mi modelo está regresando?

Resultado esperado:

  • Almacena puntajes de línea base de un modelo de referencia o versión anterior
  • Compara puntajes de nuevo modelo contra línea base en el mismo conjunto de prueba
  • Marca métricas donde el cambio relativo excede tu umbral
  • Ejecuta prueba de significancia estadística para confirmar diferencias reales

Auditoría de seguridad

Seguro
v4 • 1/17/2026

This skill contains only static documentation (SKILL.md) with no executable files. All static findings are false positives: markdown code block backticks were misidentified as Ruby/shell command execution, and JSON metadata fields were misclassified as cryptographic issues. The skill provides evaluation guidance only with no data access, network activity, or command execution capability.

2
Archivos escaneados
649
Líneas analizadas
2
hallazgos
4
Auditorías totales

Puntuación de calidad

38
Arquitectura
100
Mantenibilidad
85
Contenido
21
Comunidad
100
Seguridad
91
Cumplimiento de la especificación

Lo que puedes crear

Puerta de regresión en CI

Diseña una lista de verificación de evaluación y umbrales para bloquear cambios de modelo que reduzcan la calidad.

Resumen de comparación de modelos

Compara dos opciones de modelo usando calificaciones humanas y puntajes automatizados para un memo de decisión.

Plan de estudio de benchmark

Crea un plan de benchmarking con conjuntos de datos, métricas y estructura de reporte.

Prueba estos prompts

Plan de evaluación inicial
Crea un plan de evaluación básico con 3 métricas automatizadas y 2 criterios humanos para un chatbot de soporte al cliente.
Guía de selección de métricas
Recomienda métricas para resumir, explica qué captura cada una, y nota una limitación por métrica.
Prompt de LLM-juez
Redacta un prompt de LLM-juez por pares para comparar respuestas A y B en exactitud, utilidad y claridad.
Análisis de prueba A/B
Describe un plan de prueba estadística para evaluación A/B, incluyendo guía de tamaño de muestra y reporte de tamaño de efecto.

Mejores prácticas

  • Usa múltiples métricas y revisión humana juntas
  • Prueba con datos representativos y diversos
  • Rastrea líneas base y significancia estadística

Evitar

  • Confiar en una sola métrica
  • Probar en datos de entrenamiento
  • Ignorar varianza en muestras pequeñas

Preguntas frecuentes

¿Es esto compatible con Claude y Codex?
Sí, la guía es agnóstica al modelo y aplica a Claude, Codex, Claude Code, y otros LLMs.
¿Cuáles son los límites de esta habilidad?
Proporciona guía y ejemplos pero no tubería de evaluación ejecutable en este directorio.
¿Cómo integro con mi stack?
Mapea las métricas y flujos de trabajo a tus herramientas de evaluación o CI existentes.
¿Accede o almacena mis datos?
No, es documentación estática y no lee ni transmite datos.
¿Qué si los puntajes son inestables?
Aumenta tamaño de muestra, revisa varianza, y añade validación humana antes de decisiones.
¿Cómo es esto diferente de una lista de benchmarks?
Combina métricas, revisión humana y estrategia de prueba en lugar de solo listar benchmarks.

Detalles del desarrollador

Estructura de archivos

📄 SKILL.md