스킬 evaluation

📊

evaluation

Name: evaluation
Author: Asmayaseen

안전 ⚙️ 외부 명령어🌐 네트워크 접근📁 파일 시스템 액세스

エージェントシステムの評価フレームワークを構築する

또한 다음에서 사용할 수 있습니다: ChakshuGautam,muratcankoylan,sickn33

エージェントシステムには信頼できる品質測定が欠けています。このスキルは、多次元ルーブリック、テストセット設計、本番環境モニタリングを備えた構造化された評価フレームワークを提供し、エージェントのパフォーマンスを体系的に測定します。

지원: Claude Codex Code(CC)

🥉 76 브론즈

스킬 ZIP 다운로드

Claude에서 업로드

설정 → 기능 → 스킬 → 스킬 업로드로 이동

토글을 켜고 사용 시작

테스트해 보기

"evaluation" 사용 중입니다. これらの3つのエージェント応答を事実正確性、完全性、引用品質で評価します。

예상 결과:

回答A: 総合0.82（良好）- 事実: 0.9、完全性: 0.8、引用: 0.7 - パス
回答B: 総合0.58（許容可能）- 事実: 0.7、完全性: 0.5、引用: 0.6 - 改善が必要
回答C: 総合0.91（優秀）- 事実: 1.0、完全性: 0.85、引用: 0.9 - パス
推奨: タスクタイプBのような応答の完全性改善に焦点を当てる

"evaluation" 사용 중입니다. 研究エージェント用のテストセットを作成します。

예상 결과:

テストセット: 5つのテストが作成されました
simple_lookup: 単一の事実クエリ（複雑さ: simple）
context_retrieval: 選好ベースの推奨（複雑さ: medium）
multi_step_reasoning: データ分析タスク（複雑さ: complex）
想定されるツール呼び出し数: simpleで1-3回、mediumで3-5回、complexで5回以上

"evaluation" 사용 중입니다. 品質アラートの本番環境モニタリングをセットアップします。

예상 결과:

本番環境モニタリングが設定されました
サンプルレート: インタラクションの1%
警告閾値: 85%パス率
重要閾値: 70%パス率
アラートタイプ: quality_drop、low_score、regression

보안 감사

안전

v5 • 1/16/2026

This is a legitimate evaluation framework skill containing only documentation and Python evaluation logic. All 79 static findings are FALSE POSITIVES caused by the scanner misinterpreting Markdown code blocks (``` delimiters) as shell backticks, dictionary structures as key files, and floating-point score values (0.0-1.0) as cryptographic algorithms. No network calls, no credential access, no command execution, and no data exfiltration patterns exist in the actual runtime code.

스캔된 파일

1,280

분석된 줄 수

발견 사항

총 감사 수

감사자: claude 감사 이력 보기 →

품질 점수

아키텍처

100

유지보수성

콘텐츠

커뮤니티

100

보안

사양 준수

만들 수 있는 것

エージェントパフォーマンスのテスト

定義された品質次元とパス閾値に対してエージェント出力を体系的に測定する

コンテキスト戦略の検証

異なるコンテキストエンジニアリングアプローチがエージェント品質とトークン使用に与える影響を比較する

品質トレンドの追跡

自動サンプリングとアラートシステムを備えた本番環境エージェント品質の経時監視

이 프롬프트를 사용해 보세요

テストセットの作成

技術トピックを調査するエージェントを評価するための、異なる複雑さレベル（シンプルから非常に複雑）を持つ5つのテストケースを含むテストセットを作成します。複雑さレベル、タグ、およびグラウンドトルースの期待値を含めてください。

ルーブリックの設計

[use case: カスタマーサポートエージェント]用の多次元評価ルーブリックを設計します。5つの次元、ウェイト、1.0から0.0までのレベル説明、スコアリングの根拠を定義します。

評価の実行

このルーブリックに対して次のエージェント出力を評価します。各出力について、次元スコア、総合スコア、パス/失敗判定と根拠を提供します。

パイプラインの構築

コード変更時に実行される評価パイプラインを構築します。テストセットの読み込み、並列実行、結果集約、Slackへの失敗レポートを含みます。

모범 사례

LLM自動評価と人間によるレビューを組み合わせて、エッジケースと微妙な問題に対応する
複数の有効なエージェントアプローチを考慮して、特定の実行パスではなく結果を評価する
指標を経時的に追跡して回帰を検出し、最適化の効果を測定する

피하기

特定のステップ而不是結果を評価すると、有効な代替アプローチにペナルティが科される
単一の指標ではなく、異なる品質側面を捉える多次元ルーブリックを使用する
無制限のコンテキストでのみテストして、現実的な制限で発生するパフォーマンスの低下を見逃す

자주 묻는 질문

どのようなAIツールとプラットフォームがサポートされていますか？

Claude、Claude Code、Codexと互換性があります。フレームワークに依存しない設計により、テキスト出力を生成するあらゆるエージェントで動作します。

いくつのテストケースを含めるべきですか？

開発中は異なる複雑さレベルをカバーする5-10のテストから始めます。本番環境モニタリングには50-100のテストに拡大します。

これはCI/CDパイプラインとどのように統合されますか？

評価スクリプトをpre-commitフックまたはCIとして実行します。パス率が定義された閾値を下回った場合、ビルドを失敗させます。

評価データはprivateに保たれますか？

すべての評価実行はローカル環境で行われます。外部サービスにデータが送信されることはありません。

評価スコアに一貫性がないのはなぜですか？

エージェント評価では非決定性が予想されます。大きなテストセットを使用し、信頼区間を報告します。

他の評価ツールと比較してどうですか？

このスキルは軽量でカスタマイズ可能なフレームワークを提供します。特定のベンチマークについては、LangSmithやRAGASなどのツールと組み合わせてください。

개발자 세부 정보

작성자

Asmayaseen

라이선스

MIT

리포지토리

https://github.com/Asmayaseen/hackathon-2/tree/main/.claude/skills/evaluation

참조

main

파일 구조

📁 references/

📄 metrics.md

📁 scripts/

📄 evaluator.py

📄 verify.py

📄 SKILL.md

evaluation

테스트해 보기

보안 감사

위험 요인

품질 점수

만들 수 있는 것

エージェントパフォーマンスのテスト

コンテキスト戦略の検証

品質トレンドの追跡

이 프롬프트를 사용해 보세요

모범 사례

피하기

자주 묻는 질문

개발자 세부 정보