Question 1

なぜエージェントはベンチマークでは合格するのに本番環境では失敗するのでしょうか？

Accepted Answer

ベンチマークはクリーンで明確に定義されたタスクを使用しますが、本番環境では曖昧で現実世界のシナリオが関与します。このスキルは、実際のユースケースを反映した行動テストでそのギャップを埋めます。

Question 2

各テストを何回実行する必要がありますか？

Accepted Answer

基本的なテストは最低3-5回、統計的信頼性分析は10回以上実行します。より多くの実行回数は一貫性指標の信頼性を向上させますが、評価時間が増加します。

Question 3

行動契約とは何ですか？

Accepted Answer

行動契約とは、エージェントが維持すべき不変性を定義します—例えば、機密データを決して公開しない、曖昧なリクエストには常に明確化の質問をする、またはセッション間で一貫したトーンを維持する等等です。

Question 4

このスキルはあらゆるタイプのLLMエージェントをテストできますか？

Accepted Answer

はい、評価方法は会話エージェント、コード生成エージェント、タスク自動化エージェント、マルチエージェントシステムに適用できます。テスト設計はエージェントのドメインに一致させる必要があります。

Question 5

フレーキーテストにはどのように対応すればよいですか？

Accepted Answer

LLM固有のいくつかの変動性は受け入れるべきです。100%の一貫性を要求する代わりに、統計的しきい値（例：90%の合格率）を使用します。フレキネスを指標として追跡します。

Question 6

エージェント評価におけるデータ漏洩とは何ですか？

Accepted Answer

データ漏洩は、テストデータがトレーニングデータやプロンプトに現れるときに発生し、人工的にinflatedされたスコアが発生します。エージェントが閲覧したデータからテスト入力が独立しているかを常に確認してください。

agent-evaluation

テストする