下載技能 ZIP
在 Claude 中上傳
前往 設定 → 功能 → 技能 → 上傳技能
開啟並開始使用
測試它
正在使用「llm-evaluation」。 使用 ROUGE 指標評估摘要模型
預期結果:
ROUGE-1: 0.72, ROUGE-2: 0.58, ROUGE-L: 0.65 - 在單元重疊方面表現強勁,二元連續性中等
正在使用「llm-evaluation」。 使用 LLM-as-Judge 比較兩個回應
預期結果:
獲勝者:回應 B(信心度:8/10)。回應 B 提供更準確的引用和更好的結構化論點,儘管兩個答案都充分解決了核心問題。
正在使用「llm-evaluation」。 分析 A/B 測試結果的統計顯著性
預期結果:
變體 B 顯示比 A 改善 12%,p 值為 0.03。結果在 alpha=0.05 下具有統計顯著性,效果量中等(Cohen's d=0.54)。
安全審計
安全This skill is documentation-only containing Python code examples for LLM evaluation. All static analysis findings are false positives: Python code blocks were misidentified as Ruby/shell commands, and dictionary keys were incorrectly flagged as cryptographic operations. No executable code or security risks detected.
品質評分
你能建構什麼
ML 工程師驗證模型變更
在部署提示詞或模型更新前執行全面的評估套件,以盡早發現效能回歸。
產品團隊比較 AI 供應商
針對領域特定任務基準測試多個 LLM 供應商,以做出數據驅動的供應商選擇決策。
研究團隊發布結果
產生具有適當指標和顯著性檢定的統計嚴謹評估結果,供學術發表使用。
試試這些提示
我需要評估一個產生客戶支援回應的 LLM。我應該使用哪些指標以及如何實作它們?
為我的 RAG 應用程式建立一個評估套件,測量準確性、依據性和檢索品質。包含自動化和人類評估元件。
我有兩個提示詞變體的評估分數:變體 A [scores] 和變體 B [scores]。判斷差異是否具有統計顯著性並計算效果量。
設計一個 CI/CD 整合,在每次模型更新時執行回歸偵測,在效能下降超過 5% 時發出警報,並生成與基準線的比較報告。
最佳實務
- 使用多個互補指標而非僅優化單一分數
- 在測量改進前務必建立基準效能
- 結合自動化指標與人類評估以進行全面評估
避免
- 從過少的測試範例評估中得出結論
- 使用與業務目標不一致的評估指標
- 在與訓練資料重疊的資料上測試(資料汙染)