evaluation
エージェントシステムの評価フレームワークを構築する
또한 다음에서 사용할 수 있습니다: ChakshuGautam,muratcankoylan,sickn33
エージェントシステムには信頼できる品質測定が欠けています。このスキルは、多次元ルーブリック、テストセット設計、本番環境モニタリングを備えた構造化された評価フレームワークを提供し、エージェントのパフォーマンスを体系的に測定します。
스킬 ZIP 다운로드
Claude에서 업로드
설정 → 기능 → 스킬 → 스킬 업로드로 이동
토글을 켜고 사용 시작
테스트해 보기
"evaluation" 사용 중입니다. これらの3つのエージェント応答を事実正確性、完全性、引用品質で評価します。
예상 결과:
- 回答A: 総合0.82(良好)- 事実: 0.9、完全性: 0.8、引用: 0.7 - パス
- 回答B: 総合0.58(許容可能)- 事実: 0.7、完全性: 0.5、引用: 0.6 - 改善が必要
- 回答C: 総合0.91(優秀)- 事実: 1.0、完全性: 0.85、引用: 0.9 - パス
- 推奨: タスクタイプBのような応答の完全性改善に焦点を当てる
"evaluation" 사용 중입니다. 研究エージェント用のテストセットを作成します。
예상 결과:
- テストセット: 5つのテストが作成されました
- simple_lookup: 単一の事実クエリ(複雑さ: simple)
- context_retrieval: 選好ベースの推奨(複雑さ: medium)
- multi_step_reasoning: データ分析タスク(複雑さ: complex)
- 想定されるツール呼び出し数: simpleで1-3回、mediumで3-5回、complexで5回以上
"evaluation" 사용 중입니다. 品質アラートの本番環境モニタリングをセットアップします。
예상 결과:
- 本番環境モニタリングが設定されました
- サンプルレート: インタラクションの1%
- 警告閾値: 85%パス率
- 重要閾値: 70%パス率
- アラートタイプ: quality_drop、low_score、regression
보안 감사
안전This is a legitimate evaluation framework skill containing only documentation and Python evaluation logic. All 79 static findings are FALSE POSITIVES caused by the scanner misinterpreting Markdown code blocks (``` delimiters) as shell backticks, dictionary structures as key files, and floating-point score values (0.0-1.0) as cryptographic algorithms. No network calls, no credential access, no command execution, and no data exfiltration patterns exist in the actual runtime code.
위험 요인
⚙️ 외부 명령어 (20)
🌐 네트워크 접근 (1)
📁 파일 시스템 액세스 (1)
품질 점수
만들 수 있는 것
エージェントパフォーマンスのテスト
定義された品質次元とパス閾値に対してエージェント出力を体系的に測定する
コンテキスト戦略の検証
異なるコンテキストエンジニアリングアプローチがエージェント品質とトークン使用に与える影響を比較する
品質トレンドの追跡
自動サンプリングとアラートシステムを備えた本番環境エージェント品質の経時監視
이 프롬프트를 사용해 보세요
技術トピックを調査するエージェントを評価するための、異なる複雑さレベル(シンプルから非常に複雑)を持つ5つのテストケースを含むテストセットを作成します。複雑さレベル、タグ、およびグラウンドトルースの期待値を含めてください。
[use case: カスタマーサポートエージェント]用の多次元評価ルーブリックを設計します。5つの次元、ウェイト、1.0から0.0までのレベル説明、スコアリングの根拠を定義します。
このルーブリックに対して次のエージェント出力を評価します。各出力について、次元スコア、総合スコア、パス/失敗判定と根拠を提供します。
コード変更時に実行される評価パイプラインを構築します。テストセットの読み込み、並列実行、結果集約、Slackへの失敗レポートを含みます。
모범 사례
- LLM自動評価と人間によるレビューを組み合わせて、エッジケースと微妙な問題に対応する
- 複数の有効なエージェントアプローチを考慮して、特定の実行パスではなく結果を評価する
- 指標を経時的に追跡して回帰を検出し、最適化の効果を測定する
피하기
- 特定のステップ而不是結果を評価すると、有効な代替アプローチにペナルティが科される
- 単一の指標ではなく、異なる品質側面を捉える多次元ルーブリックを使用する
- 無制限のコンテキストでのみテストして、現実的な制限で発生するパフォーマンスの低下を見逃す