🧪

llm-evaluation

Name: llm-evaluation
Author: wshobson

Безопасно 🌐 Доступ к сети⚙️ Внешние команды

Construir planes de evaluación confiables de LLM

Также доступно от: sickn33

Necesitas formas consistentes de medir la calidad y regresiones de LLM. Esta habilidad proporciona métricas, guía de revisión humana y marcos de trabajo para una evaluación confiable de IA.

Поддерживает: Claude Codex Code(CC)

📊 69 Адекватно

Скачать ZIP навыка

Загрузить в Claude

Перейдите в Settings → Capabilities → Skills → Upload skill

Включите и начните использовать

Протестировать

Использование «llm-evaluation». Proponer un plan de evaluación para un asistente RAG.

Ожидаемый результат:

Métricas automatizadas: MRR, NDCG, Precisión en K
Calificaciones humanas: exactitud, relevancia, utilidad
LLM-juez: comparación por pares para respuestas finales
Regla de regresión: fallar si la exactitud baja más del 5 por ciento

Использование «llm-evaluation». ¿Qué métricas debería usar para evaluar un modelo de resumir?

Ожидаемый результат:

ROUGE para superposición de n-gramas con resúmenes de referencia
BERTScore para similitud semántica usando embeddings
Puntaje de factualidad para verificar afirmaciones contra texto fuente
Evaluación de legibilidad humana para coherencia y fluidez

Использование «llm-evaluation». ¿Cómo detecto si mi modelo está regresando?

Ожидаемый результат:

Almacena puntajes de línea base de un modelo de referencia o versión anterior
Compara puntajes de nuevo modelo contra línea base en el mismo conjunto de prueba
Marca métricas donde el cambio relativo excede tu umbral
Ejecuta prueba de significancia estadística para confirmar diferencias reales

Аудит безопасности

Безопасно

v4 • 1/17/2026

This skill contains only static documentation (SKILL.md) with no executable files. All static findings are false positives: markdown code block backticks were misidentified as Ruby/shell command execution, and JSON metadata fields were misclassified as cryptographic issues. The skill provides evaluation guidance only with no data access, network activity, or command execution capability.

Просканировано файлов

649

Проанализировано строк

находки

Всего аудитов

Факторы риска

🌐 Доступ к сети (1)

skill-report.json:6

⚙️ Внешние команды (23)

Проверено: claude Посмотреть историю аудитов →

Оценка качества

Архитектура

100

Сопровождаемость

Контент

Сообщество

100

Безопасность

Соответствие спецификации

Что вы можете построить

Puerta de regresión en CI

Diseña una lista de verificación de evaluación y umbrales para bloquear cambios de modelo que reduzcan la calidad.

Resumen de comparación de modelos

Compara dos opciones de modelo usando calificaciones humanas y puntajes automatizados para un memo de decisión.

Plan de estudio de benchmark

Crea un plan de benchmarking con conjuntos de datos, métricas y estructura de reporte.

Попробуйте эти промпты

Plan de evaluación inicial

Crea un plan de evaluación básico con 3 métricas automatizadas y 2 criterios humanos para un chatbot de soporte al cliente.

Guía de selección de métricas

Recomienda métricas para resumir, explica qué captura cada una, y nota una limitación por métrica.

Prompt de LLM-juez

Redacta un prompt de LLM-juez por pares para comparar respuestas A y B en exactitud, utilidad y claridad.

Análisis de prueba A/B

Describe un plan de prueba estadística para evaluación A/B, incluyendo guía de tamaño de muestra y reporte de tamaño de efecto.

Лучшие практики

Usa múltiples métricas y revisión humana juntas
Prueba con datos representativos y diversos
Rastrea líneas base y significancia estadística

Избегать

Confiar en una sola métrica
Probar en datos de entrenamiento
Ignorar varianza en muestras pequeñas

Часто задаваемые вопросы

¿Es esto compatible con Claude y Codex?

Sí, la guía es agnóstica al modelo y aplica a Claude, Codex, Claude Code, y otros LLMs.

¿Cuáles son los límites de esta habilidad?

Proporciona guía y ejemplos pero no tubería de evaluación ejecutable en este directorio.

¿Cómo integro con mi stack?

Mapea las métricas y flujos de trabajo a tus herramientas de evaluación o CI existentes.

¿Accede o almacena mis datos?

No, es documentación estática y no lee ni transmite datos.

¿Qué si los puntajes son inestables?

Aumenta tamaño de muestra, revisa varianza, y añade validación humana antes de decisiones.

¿Cómo es esto diferente de una lista de benchmarks?

Combina métricas, revisión humana y estrategia de prueba en lugar de solo listar benchmarks.

Сведения для разработчиков

Автор

wshobson

Лицензия

MIT

Репозиторий

https://github.com/wshobson/agents/tree/main/plugins/llm-application-dev/skills/llm-evaluation

Ссылка

main

Структура файлов

📄 SKILL.md