スキル advanced-evaluation

📊

advanced-evaluation

Name: advanced-evaluation
Author: muratcankoylan

安全 ⚙️ 外部コマンド🌐 ネットワークアクセス

신뢰할 수 있는 점수화를 통해 LLM 출력 평가하기

こちらからも入手できます: ChakshuGautam

LLM 출력의 수동 평가는 느리고 평가자마다 일관성이 부족합니다. 이 기술은 판사로서 LLM을 사용한 자동 평가를 위한 프로덕션 수준의 기법을 제공합니다. 직접 점수화 루브릭, 위치 편향 완화를 포함한 쌍대 비교, 그리고 신뢰도 캘리브레이션을 포함합니다.

対応: Claude Codex Code(CC)

🥈 77 シルバー

スキルZIPをダウンロード

Claudeでアップロード

設定 → 機能 → スキル → スキルをアップロードへ移動

オンにして利用開始

テストする

「advanced-evaluation」を使用しています。 정확성, 명확성, 완전성에 대해 평가하세요: '양자 얽힘은 두 개의 연결된 동전과 같습니다. 하나가 앞면이 나오면 다른 하나는 즉시 뒷면이 나옵니다.'

期待される結果:

정확성: 4/5 - 상관 관계가 있는 결과를 정확하게 설명하지만 양자 역학을 과도하게 단순화합니다
명확성: 5/5 - 일반 청중을 위한 탁월한 비유
완전성: 3/5 - 양자 시스템에 대한 핵심 세부 사항 누락
전체: 4/5 - 초보자에게 좋지만 더 많은 과학적 깊이를 포함할 수 있습니다

「advanced-evaluation」を使用しています。 기계 학습에 대한 두 가지 설명을 비교하세요. A: 알고리즘을 포함한 기술적 정의. B: 개 훈련 비유.

期待される結果:

명확성: B 승리 - 비유가 초보자에게 더 접근하기 쉽습니다
정확성: 무승부 - 둘 다 정확한 핵심 개념을 전달합니다
사용 사례: 기술적 청중에는 A, 일반 청중에는 B 선택

セキュリティ監査

安全

v4 • 1/17/2026

Pure documentation skill containing evaluation methodologies, prompt templates, and pseudocode examples. All static findings are false positives: markdown code fences are misidentified as shell backticks, statistical formulas are misidentified as weak crypto, and academic reference URLs are not network calls. No executable code, file I/O, or data exfiltration patterns exist.

スキャンされたファイル

2,084

解析された行数

検出結果

総監査数

リスク要因

⚙️ 外部コマンド (122)

🌐 ネットワークアクセス (5)

skill-report.json:6 SKILL.md:436 SKILL.md:437 SKILL.md:438 SKILL.md:439

監査者: claude 監査履歴を表示 →

品質スコア

アーキテクチャ

100

保守性

コンテンツ

コミュニティ

100

セキュリティ

仕様準拠

作れるもの

모델 비교 자동화

여러 모델 출력을 비교하여 프로덕션 프롬프트에 대한 최상의 응답 선택

새로운 기법 평가

프롬프트 전략이 출력 품질을 개선하는지 체계적으로 평가

출력 품질 모니터링

시간에 따른 프로덕션 배포 전반에 걸친 품질 지표 추적

これらのプロンプトを試す

직접 점수화

정확성, 명확성, 완전성에 대해 1-5 척도로 이 응답을 평가하세요. 구체적인 증거와 개선 제안과 함께 점수를 제공하세요. 응답: {response}

쌍대 비교

주어진 프롬프트에 대해 응답 A와 응답 B를 비교하세요. 길이를 무시하세요. 어떤 것이 더 좋은지 구체적인 기준과 함께 이유를 설명하세요. A: {response_a}, B: {response_b}

루브릭 생성

{domain}에서 {criterion}을 평가하기 위한 1-5 루브릭을 생성하세요. 각 점수에 대한 수준 설명과 구체적인 관찰 가능한 특성을 포함하세요.

편향 평가

이 평가 결과에서 위치 편향, 길이 편향 또는 권위 편향을 분석하세요. 기준이 일관되게 적용되었는지 확인하세요. 평가: {evaluation_result}

ベストプラクティス

항상 점수 전에 정당화를 요구하세요 - 사고 사슬이 신뢰성을 15-25% 향상시킵니다
쌍대 비교에서 위치 스왑을 사용하여 위치 편향 완화하기
객관적 기준(직접 점수화)과 주관적 선호도(쌍대 비교)를 분리하세요

回避

위치 스왑 없이 단일 패스 쌍대 비교는 체계적인 위치 편향을 유발합니다
증거 없이 점수화하면 평가를 디버그할 수 없게 되어 신뢰할 수 없게 됩니다
생성과 평가에 동일한 모델을 사용하면 자기 강화 편향을 발생시킵니다

よくある質問

LLM-as-Judge에 가장 적합한 모델은 무엇입니까?

GPT-4와 Claude 3가 인간 평가자와 가장 높은 일치도를 보입니다. 더 작은 모델은 초기 스크리닝에 적합합니다.

루브릭에 기준이 얼마나 있어야 합니까?

루브릭당 5-7개의 기준으로 제한하세요. 기준이 많으면 신뢰성이 감소하고 인지 부하가 증가합니다.

내 own LLM API와 함께 사용할 수 있습니까?

네. 이 기술은 프롬프트와 패턴을 제공합니다. 실제 점수화를 위해 LLM API와 통합하세요.

데이터를 외부로 보내습니까?

아니요. 이 기술은 평가 프롬프트만 생성합니다. 네트워크 호출이나 데이터 전송이 발생하지 않습니다.

왜 비교 결과가 무승부로 끝납니까?

무승부는 위치 편향이 감지되었거나 응답이 진정으로 동등함을 나타냅니다. 감소된 신뢰도로 무승부를 반환하세요.

이것은 인간 평가와 어떻게 비교합니까?

LLM 평가는 많은 작업에서 인간과 잘 상관되지만 주관적 결정에 대해 인간 판단을 대체할 수는 없습니다.

開発者の詳細

作成者

muratcankoylan

ライセンス

MIT

リポジトリ

https://github.com/muratcankoylan/Agent-Skills-for-Context-Engineering/tree/main/skills/advanced-evaluation

参照

main

ファイル構成

📁 references/

📄 bias-mitigation.md

📄 implementation-patterns.md

📄 metrics-guide.md

📁 scripts/

📄 evaluation_example.py

📄 output.json

📄 SKILL.md