llm-evaluation
신뢰할 수 있는 LLM 평가 계획 수립
متاح أيضًا من: sickn33
일관된 방식으로 LLM 품질 및 회귀를 측정해야 합니다. 이 스킬은 신뢰할 수 있는 AI 평가를 위한 지표, 인간 검토 가이드라인 및 테스트 프레임워크를 제공합니다.
تنزيل ZIP المهارة
رفع في Claude
اذهب إلى Settings → Capabilities → Skills → Upload skill
فعّل وابدأ الاستخدام
اختبرها
استخدام "llm-evaluation". RAG 어시스턴트를 위한 평가 계획을 제안합니다.
النتيجة المتوقعة:
- 자동화 지표: MRR, NDCG, K에서의 정밀도
- 인간 등급: 정확성, 관련성, 유용성
- LLM 판사: 최종 답변에 대한 쌍별 비교
- 회귀 규칙: 정확성이 5퍼센트 이상 하락하면 실패
استخدام "llm-evaluation". 요약 모델을 평가하려면 어떤 지표를 사용해야 합니까?
النتيجة المتوقعة:
- ROUGE: 참조 요약과 n-gram 중첩을 위한
- BERTScore: 임베딩을 사용한 의미적 유사성
- 사실성 점수: 소스 텍스트에 대한 주장 검증
- 인간 가독성 평가: 응집력과 유창성
استخدام "llm-evaluation". 모델이 회귀하고 있는지 어떻게 감지합니까?
النتيجة المتوقعة:
- 참조 모델이나 이전 버전에서 baseline 점수 저장
- 같은 테스트 세트에서 새 모델 점수를 baseline과 비교
- 상대적 변화가 임계값을 초과하는 지표 플래그
- 실제 차이를 확인하기 위해 통계적 유의성 테스트 실행
التدقيق الأمني
آمنThis skill contains only static documentation (SKILL.md) with no executable files. All static findings are false positives: markdown code block backticks were misidentified as Ruby/shell command execution, and JSON metadata fields were misclassified as cryptographic issues. The skill provides evaluation guidance only with no data access, network activity, or command execution capability.
عوامل الخطر
🌐 الوصول إلى الشبكة (1)
⚙️ الأوامر الخارجية (23)
درجة الجودة
ماذا يمكنك بناءه
CI의 회귀 게이트
품질을 저하시키는 모델 변경을 차단하기 위한 평가 체크리스트와 임계값을 설계합니다.
모델 비교 브리프
의사결정 메모를 위해 인간 등급과 자동화된 점수를 사용하여 두 모델 옵션을 비교합니다.
벤치마킹 연구 계획
데이터셋, 지표 및 보고 구조를 포함한 벤치마킹 계획을 수립합니다.
جرّب هذه الموجهات
고객 지원 챗봇을 위한 3개의 자동화된 지표와 2개의 인간 기준이 포함된 기본 평가 계획을 수립합니다.
요약 작업을 위한 지표를 추천하고, 각 지표가 무엇을 측정하는지 설명하며, 각 지표의 한계를 하나씩 알려줍니다.
정확성, 유용성 및 명확성을 위해 응답 A와 B를 비교하기 위한 쌍별 LLM 판사 프롬프트를 작성합니다.
A/B 평가를 위한 통계적 테스트 계획을 설명하고, 샘플 크기 안내 및 효과 크기 보고를 포함합니다.
أفضل الممارسات
- 여러 지표와 인간 검토를 함께 사용
- 대표적이고 다양한 데이터로 테스트
- baseline 및 통계적 유의성 추적
تجنب
- 단일 지표에 의존
- 훈련 데이터로 테스트
- 소규모 샘플의 분산 무시
الأسئلة المتكررة
Claude 및 Codex와 호환되나요?
이 스킬의 한계는 무엇입니까?
내 스택과 어떻게 통합합니까?
내 데이터에 액세스하거나 저장합니까?
점수가 불안정하면 어떻게 해야 합니까?
벤치마크 목록과 어떻게 다릅니까?
تفاصيل المطور
المؤلف
wshobsonالترخيص
MIT
المستودع
https://github.com/wshobson/agents/tree/main/plugins/llm-application-dev/skills/llm-evaluationمرجع
main
بنية الملفات
📄 SKILL.md