Habilidades advanced-evaluation

📊

advanced-evaluation

Name: advanced-evaluation
Author: muratcankoylan

Seguro ⚙️ Comandos externos🌐 Acceso a red

Evaluar salidas de LLM con puntuación confiable

También disponible en: ChakshuGautam

La evaluación manual de salidas de LLM es lenta e inconsistente entre revisores. Esta habilidad proporciona técnicas de grado de producción para evaluación automatizada usando LLMs como jueces. Incluye rúbricas de puntuación directa, comparación por pares con mitigación de sesgo de posición y calibración de confianza.

Soporta: Claude Codex Code(CC)

🥈 77 Plata

Descargar el ZIP de la skill

Subir en Claude

Ve a Configuración → Capacidades → Skills → Subir skill

Activa y empieza a usar

Pruébalo

Usando "advanced-evaluation". Evaluate on accuracy, clarity, completeness: 'Quantum entanglement is like two connected coins. When one shows heads, the other shows tails instantly.'

Resultado esperado:

Accuracy: 4/5 - Correctly describes correlated outcomes but oversimplifies quantum mechanics
Clarity: 5/5 - Excellent analogy for general audience
Completeness: 3/5 - Missing key details about quantum systems
Overall: 4/5 - Good for beginners but could include more scientific depth

Usando "advanced-evaluation". Compare these two explanations of machine learning. A: Technical definition with algorithms. B: Dog training analogy.

Resultado esperado:

Clarity: B wins - Analogy is more accessible for beginners
Accuracy: Tie - Both convey correct core concepts
Use case: Choose A for technical audience, B for general audience

Auditoría de seguridad

Seguro

v4 • 1/17/2026

Pure documentation skill containing evaluation methodologies, prompt templates, and pseudocode examples. All static findings are false positives: markdown code fences are misidentified as shell backticks, statistical formulas are misidentified as weak crypto, and academic reference URLs are not network calls. No executable code, file I/O, or data exfiltration patterns exist.

Archivos escaneados

2,084

Líneas analizadas

hallazgos

Auditorías totales

Factores de riesgo

⚙️ Comandos externos (122)

🌐 Acceso a red (5)

skill-report.json:6 SKILL.md:436 SKILL.md:437 SKILL.md:438 SKILL.md:439

Auditado por: claude Ver historial de auditorías →

Puntuación de calidad

Arquitectura

100

Mantenibilidad

Contenido

Comunidad

100

Seguridad

Cumplimiento de la especificación

Lo que puedes crear

Automatizar comparación de modelos

Comparar salidas de múltiples modelos para seleccionar la mejor respuesta para prompts de producción

Evaluar nuevas técnicas

Evaluar sistemáticamente si las estrategias de prompting mejoran la calidad de salida

Monitorear calidad de salida

Rastree métricas de calidad a través de despliegues de producción a lo largo del tiempo

Prueba estos prompts

Puntuación directa

Evaluate this response on a 1-5 scale for accuracy, clarity, and completeness. Provide scores with specific evidence and improvement suggestions. Response: {response}

Comparación por pares

Compare Response A and Response B for the given prompt. Ignore length. State which is better and explain why with specific criteria. A: {response_a}, B: {response_b}

Generación de rúbrica

Create a 1-5 rubric for evaluating {criterion} in {domain}. Include level descriptions and specific observable characteristics for each score.

Evaluación de sesgo

Analyze this evaluation result for position bias, length bias, or authority bias. Check if criteria were applied consistently. Evaluation: {evaluation_result}

Mejores prácticas

Siempre requiere justificación antes de las puntuaciones - chain-of-thought mejora la confiabilidad en un 15-25%
Usa intercambio de posición en comparación por pares para mitigar sesgo de posición
Separa criterios objetivos (usa puntuación directa) de preferencias subjetivas (usa comparación por pares)

Evitar

Comparación por pares de pasada única sin intercambio de posición introduce sesgo sistemático de posición
Puntuación sin requerir evidencia hace las evaluaciones no depurables y poco confiables
Usar el mismo modelo para generación y evaluación causa sesgo de auto-mejora

Preguntas frecuentes

¿Qué modelos funcionan mejor para LLM-as-Judge?

GPT-4 y Claude 3 muestran mayor acuerdo con jueces humanos. Modelos más pequeños funcionan para tamizado inicial.

¿Cuántos criterios deben tener las rúbricas?

Limita a 5-7 criterios por rúbrica. Más criterios reducen la confiabilidad y aumentan la carga cognitiva.

¿Puedo usar esto con mi propia API de LLM?

Sí. Esta habilidad proporciona prompts y patrones. Integra con tu API de LLM para puntuación real.

¿Esto envía datos externamente?

No. Esta habilidad solo genera prompts de evaluación. No ocurren llamadas de red ni transmisión de datos.

¿Por qué las comparaciones resultan en empates?

Los empates indican que se detectó sesgo de posición o que las respuestas son genuinamente equivalentes. Devuelve empate con confianza reducida.

¿Cómo se compara esto con evaluación humana?

La evaluación de LLM se correlaciona bien con humanos para muchas tareas pero no puede reemplazar el juicio humano para decisiones subjetivas.

Detalles del desarrollador

Autor

muratcankoylan

Licencia

MIT

Repositorio

https://github.com/muratcankoylan/Agent-Skills-for-Context-Engineering/tree/main/skills/advanced-evaluation

Ref.

main

Estructura de archivos

📁 references/

📄 bias-mitigation.md

📄 implementation-patterns.md

📄 metrics-guide.md

📁 scripts/

📄 evaluation_example.py

📄 output.json

📄 SKILL.md