agent-evaluation
LLMエージェントのパフォーマンス評価とテスト
LLMエージェントはベンチマークでは合格しても本番環境では失敗することがよくあります。このスキルは、本番環境への展開前に問題を検出するための行動テスト、能力評価、信頼性指標を提供します。
スキルZIPをダウンロード
Claudeでアップロード
設定 → 機能 → スキル → スキルをアップロードへ移動
オンにして利用開始
テストする
「agent-evaluation」を使用しています。 Run behavioral contract test on customer support agent
期待される結果:
Test Results: 5/5 invariants passed across 20 test runs. Consistency score: 94%. Minor variance detected in response tone under high-load scenarios.
「agent-evaluation」を使用しています。 Adversarial testing for code generation agent
期待される結果:
Identified 3 failure modes: (1) Silent failure on malformed syntax, (2) Over-confident incorrect answers on ambiguous specs, (3) Resource exhaustion on recursive tasks.
セキュリティ監査
安全All static analysis findings determined to be false positives. The external_commands pattern matches markdown backtick formatting for inline code references, not shell execution. The unicode escape sequence is a standard em-dash character in the description. No weak cryptography exists—this is a documentation file with no executable code. The skill describes LLM agent evaluation methodologies and contains no security risks.
品質スコア
作れるもの
本番展開前エージェント検証
本番環境にエージェントを展開する前に、包括的な行動テストを実行して回帰と能力の差異を検出します。
エージェント比較と選択
標準化されたベンチマークに対して複数のエージェント構成またはモデルを評価し、特定のタスクに最適のパフォーマンスを提供するを選択決定します。
継続的なエージェント監視
展開されたエージェントのパフォーマンス低下を検出するための継続的な信頼性指標と回帰テストを実装します。
これらのプロンプトを試す
Test this agent on a simple task and verify the output matches expected behavior. Run the test 3 times and report any inconsistencies.
Define behavioral invariants that this agent must maintain across all inputs. Create test cases that verify each invariant holds true.
Design edge cases and adversarial inputs that could break this agent. Include malformed inputs, ambiguous requests, and conflicting constraints.
Run this agent on the same task 10 times. Analyze the distribution of outputs, calculate consistency metrics, and identify failure patterns.
ベストプラクティス
- 単一の結果ではなく、統計的分布を分析するためにテストを複数回実行する
- 正確な出力文字列の一致ではなく、行動的不変性に焦点を当てる
- エージェントを積極的に壊そうとする敵対的入力も含める
回避
- 単一実行でエージェントをテストする—LLM出力は変動するため統計的分析が必要
- happy pathのみをテストする—エッジケースが重要な失敗モードを明らかにする
- 実際のタスクパフォーマンスではなく特定の指標に対してエージェントを最適化する