المهارات llm-evaluation
📦

llm-evaluation

آمن

Avalie Aplicações LLM com Métricas Abrangentes

متاح أيضًا من: wshobson

Medir o desempenho de LLMs é complexo e sujeito a erros. Esta habilidade fornece frameworks de avaliação sistemática combinando métricas automatizadas, julgamento humano e testes estatísticos para validar a qualidade de aplicações de IA.

يدعم: Claude Codex Code(CC)
🥉 74 برونزي
1

تنزيل ZIP المهارة

2

رفع في Claude

اذهب إلى Settings → Capabilities → Skills → Upload skill

3

فعّل وابدأ الاستخدام

اختبرها

استخدام "llm-evaluation". Evaluate a summarization model using ROUGE metrics

النتيجة المتوقعة:

ROUGE-1: 0.72, ROUGE-2: 0.58, ROUGE-L: 0.65 - Desempenho forte em sobreposição de unigramas com coerência moderada de bigramas

استخدام "llm-evaluation". Compare two responses using LLM-as-Judge

النتيجة المتوقعة:

Vencedor: Resposta B (confiança: 8/10). A Resposta B fornece citações mais precisas e argumentos melhor estruturados, embora ambas as respostas abordem adequadamente a questão central.

استخدام "llm-evaluation". Analyze A/B test results for statistical significance

النتيجة المتوقعة:

Variante B mostra 12% de melhoria sobre A com p-valor 0.03. O resultado é estatisticamente significativo em alpha=0.05 com tamanho de efeito médio (Cohen's d=0.54).

التدقيق الأمني

آمن
v1 • 2/25/2026

This skill is documentation-only containing Python code examples for LLM evaluation. All static analysis findings are false positives: Python code blocks were misidentified as Ruby/shell commands, and dictionary keys were incorrectly flagged as cryptographic operations. No executable code or security risks detected.

1
الملفات التي تم فحصها
486
الأسطر التي تم تحليلها
0
النتائج
1
إجمالي عمليات التدقيق
لا توجد مشكلات أمنية
تم تدقيقه بواسطة: claude

درجة الجودة

38
الهندسة المعمارية
100
قابلية الصيانة
87
المحتوى
50
المجتمع
100
الأمان
91
الامتثال للمواصفات

ماذا يمكنك بناءه

Engenheiro de ML Validando Mudanças de Modelo

Execute suites de avaliação abrangentes antes de implantar atualizações de prompt ou modelo para capturar regressões de desempenho antecipadamente.

Equipe de Produto Comparando Fornecedores de IA

Faça benchmark de múltiplos provedores LLM em tarefas específicas do domínio para tomar decisões de seleção de fornecedor baseadas em dados.

Equipe de Pesquisa Publicando Resultados

Gere resultados de avaliação estatisticamente rigorosos com métricas adequadas e testes de significância para publicações acadêmicas.

جرّب هذه الموجهات

Seleção Básica de Métricas
I need to evaluate an LLM that generates customer support responses. What metrics should I use and how do I implement them?
Construir Suite de Avaliação
Create an evaluation suite for my RAG application that measures accuracy, groundedness, and retrieval quality. Include both automated and human evaluation components.
Análise de Teste A/B
I have evaluation scores from two prompt variants: Variant A [scores] and Variant B [scores]. Determine if the difference is statistically significant and calculate effect size.
Pipeline de Avaliação em Produção
Design a CI/CD integration that runs regression detection on every model update, alerts on performance drops above 5 percent, and generates comparison reports against baseline.

أفضل الممارسات

  • Use múltiplas métricas complementares em vez de otimizar para uma única pontuação
  • Sempre estabeleça desempenho baseline antes de medir melhorias
  • Combine métricas automatizadas com avaliação humana para avaliação abrangente

تجنب

  • Tirar conclusões de avaliação em poucos exemplos de teste
  • Usar métricas de avaliação que não se alinham com objetivos de negócio
  • Testar em dados que se sobrepõem com dados de treinamento (contaminação de dados)

الأسئلة المتكررة

Qual é o tamanho mínimo de amostra para avaliação confiável de LLM?
Para testes de significância estatística, vise pelo menos 100 exemplos de avaliação. Para decisões de alto impacto, 500-1000 exemplos fornecem resultados mais confiáveis com intervalos de confiança mais estreitos.
Como escolher entre métricas automatizadas e avaliação humana?
Use métricas automatizadas para iteração rápida e detecção de regressão. Adicione avaliação humana para validação final, especialmente ao avaliar qualidades subjetivas como utilidade, segurança ou correção nuances.
LLM-as-Judge pode substituir completamente avaliadores humanos?
LLM-as-Judge funciona bem para verificações de qualidade rotineiras e escala eficientemente, mas a avaliação humana permanece essencial para julgamentos complexos, avaliação de segurança e validação do próprio modelo juiz.
Com que frequência devo re-executar avaliações na minha aplicação LLM?
Execute avaliações em cada mudança de código ou prompt como parte do CI/CD. Para monitoramento em produção, execute avaliações diárias ou semanais em amostras novas para detectar drift ou degradação de desempenho.
O que fazer quando as métricas discordam entre si?
Discordância de métricas frequentemente revela trade-offs. Investigue qual métrica se alinha melhor com seus objetivos reais através de análise de erro e considere usar uma pontuação composta ponderada refletindo prioridades de negócio.
Como avaliar conversas multi-turno?
Use métricas em nível de conversa como taxa de conclusão de tarefa e satisfação do usuário junto com métricas em nível de turno. Considere coerência entre turnos e se o modelo mantém o contexto apropriadamente durante todo o diálogo.

تفاصيل المطور

المؤلف

sickn33

الترخيص

MIT

مرجع

main

بنية الملفات

📄 SKILL.md