advanced-evaluation
Evaluar salidas de LLM con puntuación confiable
Também disponível em: ChakshuGautam
La evaluación manual de salidas de LLM es lenta e inconsistente entre revisores. Esta habilidad proporciona técnicas de grado de producción para evaluación automatizada usando LLMs como jueces. Incluye rúbricas de puntuación directa, comparación por pares con mitigación de sesgo de posición y calibración de confianza.
Baixar o ZIP da skill
Upload no Claude
Vá em Configurações → Capacidades → Skills → Upload skill
Ative e comece a usar
Testar
A utilizar "advanced-evaluation". Evaluate on accuracy, clarity, completeness: 'Quantum entanglement is like two connected coins. When one shows heads, the other shows tails instantly.'
Resultado esperado:
- Accuracy: 4/5 - Correctly describes correlated outcomes but oversimplifies quantum mechanics
- Clarity: 5/5 - Excellent analogy for general audience
- Completeness: 3/5 - Missing key details about quantum systems
- Overall: 4/5 - Good for beginners but could include more scientific depth
A utilizar "advanced-evaluation". Compare these two explanations of machine learning. A: Technical definition with algorithms. B: Dog training analogy.
Resultado esperado:
- Clarity: B wins - Analogy is more accessible for beginners
- Accuracy: Tie - Both convey correct core concepts
- Use case: Choose A for technical audience, B for general audience
Auditoria de Segurança
SeguroPure documentation skill containing evaluation methodologies, prompt templates, and pseudocode examples. All static findings are false positives: markdown code fences are misidentified as shell backticks, statistical formulas are misidentified as weak crypto, and academic reference URLs are not network calls. No executable code, file I/O, or data exfiltration patterns exist.
Fatores de risco
⚙️ Comandos externos (122)
🌐 Acesso à rede (5)
Pontuação de qualidade
O Que Você Pode Construir
Automatizar comparación de modelos
Comparar salidas de múltiples modelos para seleccionar la mejor respuesta para prompts de producción
Evaluar nuevas técnicas
Evaluar sistemáticamente si las estrategias de prompting mejoran la calidad de salida
Monitorear calidad de salida
Rastree métricas de calidad a través de despliegues de producción a lo largo del tiempo
Tente Estes Prompts
Evaluate this response on a 1-5 scale for accuracy, clarity, and completeness. Provide scores with specific evidence and improvement suggestions. Response: {response}Compare Response A and Response B for the given prompt. Ignore length. State which is better and explain why with specific criteria. A: {response_a}, B: {response_b}Create a 1-5 rubric for evaluating {criterion} in {domain}. Include level descriptions and specific observable characteristics for each score.Analyze this evaluation result for position bias, length bias, or authority bias. Check if criteria were applied consistently. Evaluation: {evaluation_result}Melhores Práticas
- Siempre requiere justificación antes de las puntuaciones - chain-of-thought mejora la confiabilidad en un 15-25%
- Usa intercambio de posición en comparación por pares para mitigar sesgo de posición
- Separa criterios objetivos (usa puntuación directa) de preferencias subjetivas (usa comparación por pares)
Evitar
- Comparación por pares de pasada única sin intercambio de posición introduce sesgo sistemático de posición
- Puntuación sin requerir evidencia hace las evaluaciones no depurables y poco confiables
- Usar el mismo modelo para generación y evaluación causa sesgo de auto-mejora
Perguntas Frequentes
¿Qué modelos funcionan mejor para LLM-as-Judge?
¿Cuántos criterios deben tener las rúbricas?
¿Puedo usar esto con mi propia API de LLM?
¿Esto envía datos externamente?
¿Por qué las comparaciones resultan en empates?
¿Cómo se compara esto con evaluación humana?
Detalhes do Desenvolvedor
Autor
muratcankoylanLicença
MIT
Repositório
https://github.com/muratcankoylan/Agent-Skills-for-Context-Engineering/tree/main/skills/advanced-evaluationReferência
main
Estrutura de arquivos