Habilidades agent-evaluation
🧪

agent-evaluation

Seguro

Evaluar y probar el rendimiento de agentes LLM

Los agentes LLM a menudo fallan en producción a pesar de pasar los benchmarks. Esta skill proporciona pruebas de comportamiento, evaluaciones de capacidad y métricas de confiabilidad para detectar problemas antes del despliegue.

Soporta: Claude Codex Code(CC)
📊 71 Adecuado
1

Descargar el ZIP de la skill

2

Subir en Claude

Ve a Configuración → Capacidades → Skills → Subir skill

3

Activa y empieza a usar

Pruébalo

Usando "agent-evaluation". Ejecutar prueba de contrato de comportamiento en agente de soporte al cliente

Resultado esperado:

Resultados de prueba: 5/5 invariantes pasadas en 20 ejecuciones. Puntuación de consistencia: 94%. Se detectó variación menor en el tono de respuesta bajo escenarios de alta carga.

Usando "agent-evaluation". Pruebas adversariales para agente de generación de código

Resultado esperado:

Se identificaron 3 modos de falla: (1) Falla silenciosa en sintaxis malformada, (2) Respuestas incorrectas sobreexigidas en especificaciones ambiguas, (3) Agotamiento de recursos en tareas recursivas.

Auditoría de seguridad

Seguro
v1 • 2/24/2026

All static analysis findings determined to be false positives. The external_commands pattern matches markdown backtick formatting for inline code references, not shell execution. The unicode escape sequence is a standard em-dash character in the description. No weak cryptography exists—this is a documentation file with no executable code. The skill describes LLM agent evaluation methodologies and contains no security risks.

1
Archivos escaneados
69
Líneas analizadas
0
hallazgos
1
Auditorías totales
No se encontraron problemas de seguridad
Auditado por: claude

Puntuación de calidad

38
Arquitectura
100
Mantenibilidad
87
Contenido
31
Comunidad
100
Seguridad
91
Cumplimiento de la especificación

Lo que puedes crear

Validación de agente pre-producción

Ejecutar pruebas de comportamiento integrales en agentes antes de desplegar a entornos de producción para detectar regresiones y brechas de capacidad.

Comparación y selección de agentes

Evaluar múltiples configuraciones de agentes o modelos contra benchmarks estandarizados para seleccionar el mejor rendimiento para tareas específicas.

Monitoreo continuo de agentes

Implementar métricas de confiabilidad y pruebas de regresión ongoing para detectar degradación del rendimiento en agentes desplegados.

Prueba estos prompts

Prueba básica de agente
Prueba este agente en una tarea simple y verifica que el output coincida con el comportamiento esperado. Ejecuta la prueba 3 veces y reporta cualquier inconsistencia.
Definición de contrato de comportamiento
Define invariantes de comportamiento que este agente debe mantener en todos los inputs. Crea casos de prueba que verifiquen que cada invariante se mantenga verdadero.
Suite de pruebas adversariales
Diseña casos límite y inputs adversariales que podrían romper este agente. Incluye inputs malformados, solicitudes ambiguas y restricciones conflictivas.
Análisis de confiabilidad estadística
Ejecuta este agente en la misma tarea 10 veces. Analiza la distribución de los outputs, calcula métricas de consistencia e identifica patrones de falla.

Mejores prácticas

  • Ejecuta pruebas múltiples veces y analiza distribuciones estadísticas en lugar de resultados individuales
  • Enfócate en invariantes de comportamiento en lugar de coincidencia exacta de strings de output
  • Incluye inputs adversariales que intenten activamente romper al agente

Evitar

  • Probar agentes con ejecuciones individuales—los outputs de LLM varían y requieren análisis estadístico
  • Solo probar caminos felices—los casos límite revelan modos de falla críticos
  • Optimizar agentes para métricas específicas en lugar del rendimiento real de tareas

Preguntas frecuentes

¿Por qué los agentes pasan los benchmarks pero fallan en producción?
Los benchmarks a menudo usan tareas limpias y bien definidas mientras que la producción involucra escenarios ambiguos del mundo real. Esta skill cierra esa brecha con pruebas de comportamiento que reflejan casos de uso reales.
¿Cuántas veces debo ejecutar cada prueba?
Mínimo 3-5 ejecuciones para pruebas básicas, 10+ para análisis de confiabilidad estadística. Más ejecuciones proporcionan mejor confianza en las métricas de consistencia pero aumentan el tiempo de evaluación.
¿Qué es un contrato de comportamiento?
Un contrato de comportamiento define invariantes que el agente debe mantener—como nunca exponer datos sensibles, siempre hacer preguntas clarificadoras para solicitudes ambiguas, o mantener un tono consistente a través de las sesiones.
¿Puede esta skill probar cualquier tipo de agente LLM?
Sí, las metodologías de evaluación se aplican a agentes conversacionales, agentes de generación de código, agentes de automatización de tareas y sistemas multi-agente. El diseño de pruebas debe coincidir con el dominio del agente.
¿Cómo manejo las pruebas flaky?
Acepta que alguna variabilidad es inherente a los LLMs. Usa umbrales estadísticos (ej. 90% de tasa de aprobación) en lugar de requerir 100% de consistencia. Rastrea la flakiness como una métrica en sí misma.

Detalles del desarrollador

Estructura de archivos

📄 SKILL.md