スキル llm-evaluation
📦

llm-evaluation

安全

LLMアプリケーションの包括的なメトリクスによる評価

こちらからも入手できます: wshobson

LLMパフォーマンスの測定は複雑でエラーが発生しやすいです。このスキルは、自動化メトリクス、人間の判断、統計的テストを組み合わせた体系的な評価フレームワークを提供し、AIアプリケーションの品質を検証します。

対応: Claude Codex Code(CC)
🥉 74 ブロンズ
1

スキルZIPをダウンロード

2

Claudeでアップロード

設定 → 機能 → スキル → スキルをアップロードへ移動

3

オンにして利用開始

テストする

「llm-evaluation」を使用しています。 ROUGEメトリクスを使用して要約モデルを評価

期待される結果:

ROUGE-1: 0.72, ROUGE-2: 0.58, ROUGE-L: 0.65 - バイグラムの一貫性は中程度ながら、ユニグラムの重複で強力なパフォーマンス

「llm-evaluation」を使用しています。 A/Bテスト結果を統計的有意性について分析

期待される結果:

バリアントBはAに対して12パーセントの改善を示し、p値は0.03です。中程度のエフェクトサイズ(Cohenのd=0.54)でalpha=0.05において統計的に有意です。

セキュリティ監査

安全
v1 • 2/25/2026

This skill is documentation-only containing Python code examples for LLM evaluation. All static analysis findings are false positives: Python code blocks were misidentified as Ruby/shell commands, and dictionary keys were incorrectly flagged as cryptographic operations. No executable code or security risks detected.

1
スキャンされたファイル
486
解析された行数
0
検出結果
1
総監査数
セキュリティ問題は見つかりませんでした
監査者: claude

品質スコア

38
アーキテクチャ
100
保守性
87
コンテンツ
50
コミュニティ
100
セキュリティ
91
仕様準拠

作れるもの

モデル変更を検証するMLエンジニア

プロンプトやモデル更新を展開する前に包括的な評価スイートを実行し、パフォーマンスの回帰を早期に検出します。

AIベンダーを比較するプロダクトチーム

ドメイン固有のタスクで複数のLLMプロバイダーをベンチマークし、データ駆動型のベンダー選択決定を行います。

結果を発表するリサーチチーム

学術出版用に、適切なメトリクスと有意性テストを含む統計的に厳密な評価結果を生成します。

これらのプロンプトを試す

基本的なメトリクス選択
顧客サポート応答を生成するLLMを評価する必要があります。どのメトリクスを使用し、実装方法は?
評価スイートの構築
正確性、根拠성、検索結果品質を測定するRAGアプリケーションの評価スイートを作成してください。自動化と人間の評価コンポーネントの両方を含めてください。
A/Bテスト分析
2つのプロンプトバリアントからの評価スコアがあります:バリアントA [スコア]とバリアントB [スコア]。差が統計的に有意かどうかを決定し、エフェクトサイズを計算してください。
本番評価パイプライン
すべてのモデル更新で回帰検出を実行し、パフォーマンス低下が5パーセントを超えた場合にアラート出し、ベースラインに対する比較レポートを生成するCI/CD統合を設計してください。

ベストプラクティス

  • 単一のスコアを最適化するのではなく、複数の補完的なメトリクスを使用してください
  • 改善を測定する前に必ずベースラインのパフォーマンスを確立してください
  • 包括的な評価のために自動メトリクスと人間評価を組み合わせてください

回避

  • テスト例が少なすぎるでの評価から結論を導く
  • ビジネス目標と一致しない評価メトリクスを使用する
  • トレーニングデータと重複するデータでテストする(データ汚染)

よくある質問

信頼性の高いLLM評価に必要な最小サンプルサイズは?
統計的有意性テストでは、少なくとも100の評価例を目標にしてください。高リスクの決定では、500〜1000の例により信頼区間が狭くなり、より信頼性の高い結果が得られます。
自動メトリクスと人間評価のどちらを選択すればよいですか?
反復の高速化と回帰検出には自動メトリクスを使用してください。特に主観的な品質(有用性、安全性、微妙な正しさなど)を評価する場合は、最終的な検証に人間評価を追加してください。
マルチターン会話を評価するにはどうしますか?
タスク完了率やユーザー満足度などの会話レベルのメトリクスと、ターンレベルのメトリクスを組み合わせて使用​​してください。ターン間の一貫性と、モデルが会話全体でコンテキストを適切に維持しているかどうかを検討してください。

開発者の詳細

ファイル構成

📄 SKILL.md