LLMパフォーマンスの測定は複雑でエラーが発生しやすいです。このスキルは、自動化メトリクス、人間の判断、統計的テストを組み合わせた体系的な評価フレームワークを提供し、AIアプリケーションの品質を検証します。
スキルZIPをダウンロード
Claudeでアップロード
設定 → 機能 → スキル → スキルをアップロードへ移動
オンにして利用開始
テストする
「llm-evaluation」を使用しています。 ROUGEメトリクスを使用して要約モデルを評価
期待される結果:
ROUGE-1: 0.72, ROUGE-2: 0.58, ROUGE-L: 0.65 - バイグラムの一貫性は中程度ながら、ユニグラムの重複で強力なパフォーマンス
「llm-evaluation」を使用しています。 A/Bテスト結果を統計的有意性について分析
期待される結果:
バリアントBはAに対して12パーセントの改善を示し、p値は0.03です。中程度のエフェクトサイズ(Cohenのd=0.54)でalpha=0.05において統計的に有意です。
セキュリティ監査
安全This skill is documentation-only containing Python code examples for LLM evaluation. All static analysis findings are false positives: Python code blocks were misidentified as Ruby/shell commands, and dictionary keys were incorrectly flagged as cryptographic operations. No executable code or security risks detected.
品質スコア
作れるもの
モデル変更を検証するMLエンジニア
プロンプトやモデル更新を展開する前に包括的な評価スイートを実行し、パフォーマンスの回帰を早期に検出します。
AIベンダーを比較するプロダクトチーム
ドメイン固有のタスクで複数のLLMプロバイダーをベンチマークし、データ駆動型のベンダー選択決定を行います。
結果を発表するリサーチチーム
学術出版用に、適切なメトリクスと有意性テストを含む統計的に厳密な評価結果を生成します。
これらのプロンプトを試す
顧客サポート応答を生成するLLMを評価する必要があります。どのメトリクスを使用し、実装方法は?
正確性、根拠성、検索結果品質を測定するRAGアプリケーションの評価スイートを作成してください。自動化と人間の評価コンポーネントの両方を含めてください。
2つのプロンプトバリアントからの評価スコアがあります:バリアントA [スコア]とバリアントB [スコア]。差が統計的に有意かどうかを決定し、エフェクトサイズを計算してください。
すべてのモデル更新で回帰検出を実行し、パフォーマンス低下が5パーセントを超えた場合にアラート出し、ベースラインに対する比較レポートを生成するCI/CD統合を設計してください。
ベストプラクティス
- 単一のスコアを最適化するのではなく、複数の補完的なメトリクスを使用してください
- 改善を測定する前に必ずベースラインのパフォーマンスを確立してください
- 包括的な評価のために自動メトリクスと人間評価を組み合わせてください
回避
- テスト例が少なすぎるでの評価から結論を導く
- ビジネス目標と一致しない評価メトリクスを使用する
- トレーニングデータと重複するデータでテストする(データ汚染)