المهارات llm-evaluation

🧪

llm-evaluation

Name: llm-evaluation
Author: wshobson

آمن 🌐 الوصول إلى الشبكة⚙️ الأوامر الخارجية

신뢰할 수 있는 LLM 평가 계획 수립

متاح أيضًا من: sickn33

일관된 방식으로 LLM 품질 및 회귀를 측정해야 합니다. 이 스킬은 신뢰할 수 있는 AI 평가를 위한 지표, 인간 검토 가이드라인 및 테스트 프레임워크를 제공합니다.

يدعم: Claude Codex Code(CC)

📊 69 كافٍ

تنزيل ZIP المهارة

رفع في Claude

اذهب إلى Settings → Capabilities → Skills → Upload skill

فعّل وابدأ الاستخدام

اختبرها

استخدام "llm-evaluation". RAG 어시스턴트를 위한 평가 계획을 제안합니다.

النتيجة المتوقعة:

자동화 지표: MRR, NDCG, K에서의 정밀도
인간 등급: 정확성, 관련성, 유용성
LLM 판사: 최종 답변에 대한 쌍별 비교
회귀 규칙: 정확성이 5퍼센트 이상 하락하면 실패

استخدام "llm-evaluation". 요약 모델을 평가하려면 어떤 지표를 사용해야 합니까?

النتيجة المتوقعة:

ROUGE: 참조 요약과 n-gram 중첩을 위한
BERTScore: 임베딩을 사용한 의미적 유사성
사실성 점수: 소스 텍스트에 대한 주장 검증
인간 가독성 평가: 응집력과 유창성

استخدام "llm-evaluation". 모델이 회귀하고 있는지 어떻게 감지합니까?

النتيجة المتوقعة:

참조 모델이나 이전 버전에서 baseline 점수 저장
같은 테스트 세트에서 새 모델 점수를 baseline과 비교
상대적 변화가 임계값을 초과하는 지표 플래그
실제 차이를 확인하기 위해 통계적 유의성 테스트 실행

التدقيق الأمني

آمن

v4 • 1/17/2026

This skill contains only static documentation (SKILL.md) with no executable files. All static findings are false positives: markdown code block backticks were misidentified as Ruby/shell command execution, and JSON metadata fields were misclassified as cryptographic issues. The skill provides evaluation guidance only with no data access, network activity, or command execution capability.

الملفات التي تم فحصها

649

الأسطر التي تم تحليلها

النتائج

إجمالي عمليات التدقيق

عوامل الخطر

🌐 الوصول إلى الشبكة (1)

skill-report.json:6

⚙️ الأوامر الخارجية (23)

تم تدقيقه بواسطة: claude عرض سجل التدقيق →

درجة الجودة

الهندسة المعمارية

100

قابلية الصيانة

المحتوى

المجتمع

100

الأمان

الامتثال للمواصفات

ماذا يمكنك بناءه

CI의 회귀 게이트

품질을 저하시키는 모델 변경을 차단하기 위한 평가 체크리스트와 임계값을 설계합니다.

모델 비교 브리프

의사결정 메모를 위해 인간 등급과 자동화된 점수를 사용하여 두 모델 옵션을 비교합니다.

벤치마킹 연구 계획

데이터셋, 지표 및 보고 구조를 포함한 벤치마킹 계획을 수립합니다.

جرّب هذه الموجهات

초기 평가 계획

고객 지원 챗봇을 위한 3개의 자동화된 지표와 2개의 인간 기준이 포함된 기본 평가 계획을 수립합니다.

지표 선택 가이드

요약 작업을 위한 지표를 추천하고, 각 지표가 무엇을 측정하는지 설명하며, 각 지표의 한계를 하나씩 알려줍니다.

LLM 판사 프롬프트

정확성, 유용성 및 명확성을 위해 응답 A와 B를 비교하기 위한 쌍별 LLM 판사 프롬프트를 작성합니다.

A/B 테스트 분석

A/B 평가를 위한 통계적 테스트 계획을 설명하고, 샘플 크기 안내 및 효과 크기 보고를 포함합니다.

أفضل الممارسات

여러 지표와 인간 검토를 함께 사용
대표적이고 다양한 데이터로 테스트
baseline 및 통계적 유의성 추적

تجنب

단일 지표에 의존
훈련 데이터로 테스트
소규모 샘플의 분산 무시

الأسئلة المتكررة

Claude 및 Codex와 호환되나요?

네, 이 가이드는 모델에 구애받지 않으며 Claude, Codex, Claude Code 및 기타 LLM에 적용됩니다.

이 스킬의 한계는 무엇입니까?

이 디렉터리에는 실행 가능한 평가 파이프라인이 아닌 가이드라인과 예제를 제공합니다.

내 스택과 어떻게 통합합니까?

지표와 워크플로우를 기존 평가 또는 CI 도구에 매핑합니다.

내 데이터에 액세스하거나 저장합니까?

아니요, 정적 문서이며 데이터를 읽거나 전송하지 않습니다.

점수가 불안정하면 어떻게 해야 합니까?

샘플 크기를 늘리고, 분산을 검토하며, 의사결정 전 인간 검증을 추가합니다.

벤치마크 목록과 어떻게 다릅니까?

벤치마크 목록만 제공하는 것이 아니라 지표, 인간 검토 및 테스트 전략을 결합합니다.

تفاصيل المطور

المؤلف

wshobson

الترخيص

MIT

المستودع

https://github.com/wshobson/agents/tree/main/plugins/llm-application-dev/skills/llm-evaluation

مرجع

main

بنية الملفات

📄 SKILL.md