Навыки llm-evaluation
🧪

llm-evaluation

Безопасно 🌐 Доступ к сети⚙️ Внешние команды

Construir planes de evaluación confiables de LLM

Также доступно от: sickn33

Necesitas formas consistentes de medir la calidad y regresiones de LLM. Esta habilidad proporciona métricas, guía de revisión humana y marcos de trabajo para una evaluación confiable de IA.

Поддерживает: Claude Codex Code(CC)
📊 69 Адекватно
1

Скачать ZIP навыка

2

Загрузить в Claude

Перейдите в Settings → Capabilities → Skills → Upload skill

3

Включите и начните использовать

Протестировать

Использование «llm-evaluation». Proponer un plan de evaluación para un asistente RAG.

Ожидаемый результат:

  • Métricas automatizadas: MRR, NDCG, Precisión en K
  • Calificaciones humanas: exactitud, relevancia, utilidad
  • LLM-juez: comparación por pares para respuestas finales
  • Regla de regresión: fallar si la exactitud baja más del 5 por ciento

Использование «llm-evaluation». ¿Qué métricas debería usar para evaluar un modelo de resumir?

Ожидаемый результат:

  • ROUGE para superposición de n-gramas con resúmenes de referencia
  • BERTScore para similitud semántica usando embeddings
  • Puntaje de factualidad para verificar afirmaciones contra texto fuente
  • Evaluación de legibilidad humana para coherencia y fluidez

Использование «llm-evaluation». ¿Cómo detecto si mi modelo está regresando?

Ожидаемый результат:

  • Almacena puntajes de línea base de un modelo de referencia o versión anterior
  • Compara puntajes de nuevo modelo contra línea base en el mismo conjunto de prueba
  • Marca métricas donde el cambio relativo excede tu umbral
  • Ejecuta prueba de significancia estadística para confirmar diferencias reales

Аудит безопасности

Безопасно
v4 • 1/17/2026

This skill contains only static documentation (SKILL.md) with no executable files. All static findings are false positives: markdown code block backticks were misidentified as Ruby/shell command execution, and JSON metadata fields were misclassified as cryptographic issues. The skill provides evaluation guidance only with no data access, network activity, or command execution capability.

2
Просканировано файлов
649
Проанализировано строк
2
находки
4
Всего аудитов

Оценка качества

38
Архитектура
100
Сопровождаемость
85
Контент
21
Сообщество
100
Безопасность
91
Соответствие спецификации

Что вы можете построить

Puerta de regresión en CI

Diseña una lista de verificación de evaluación y umbrales para bloquear cambios de modelo que reduzcan la calidad.

Resumen de comparación de modelos

Compara dos opciones de modelo usando calificaciones humanas y puntajes automatizados para un memo de decisión.

Plan de estudio de benchmark

Crea un plan de benchmarking con conjuntos de datos, métricas y estructura de reporte.

Попробуйте эти промпты

Plan de evaluación inicial
Crea un plan de evaluación básico con 3 métricas automatizadas y 2 criterios humanos para un chatbot de soporte al cliente.
Guía de selección de métricas
Recomienda métricas para resumir, explica qué captura cada una, y nota una limitación por métrica.
Prompt de LLM-juez
Redacta un prompt de LLM-juez por pares para comparar respuestas A y B en exactitud, utilidad y claridad.
Análisis de prueba A/B
Describe un plan de prueba estadística para evaluación A/B, incluyendo guía de tamaño de muestra y reporte de tamaño de efecto.

Лучшие практики

  • Usa múltiples métricas y revisión humana juntas
  • Prueba con datos representativos y diversos
  • Rastrea líneas base y significancia estadística

Избегать

  • Confiar en una sola métrica
  • Probar en datos de entrenamiento
  • Ignorar varianza en muestras pequeñas

Часто задаваемые вопросы

¿Es esto compatible con Claude y Codex?
Sí, la guía es agnóstica al modelo y aplica a Claude, Codex, Claude Code, y otros LLMs.
¿Cuáles son los límites de esta habilidad?
Proporciona guía y ejemplos pero no tubería de evaluación ejecutable en este directorio.
¿Cómo integro con mi stack?
Mapea las métricas y flujos de trabajo a tus herramientas de evaluación o CI existentes.
¿Accede o almacena mis datos?
No, es documentación estática y no lee ni transmite datos.
¿Qué si los puntajes son inestables?
Aumenta tamaño de muestra, revisa varianza, y añade validación humana antes de decisiones.
¿Cómo es esto diferente de una lista de benchmarks?
Combina métricas, revisión humana y estrategia de prueba en lugar de solo listar benchmarks.

Сведения для разработчиков

Автор

wshobson

Лицензия

MIT

Ссылка

main

Структура файлов

📄 SKILL.md