技能 llm-evaluation
📦

llm-evaluation

安全

使用全面指標評估 LLM 應用程式

也可從以下取得: wshobson

測量 LLM 效能複雜且容易出錯。此技能提供系統化的評估框架,結合自動化指標、人類判斷和統計檢定,以驗證 AI 應用程式品質。

支援: Claude Codex Code(CC)
🥉 74 青銅
1

下載技能 ZIP

2

在 Claude 中上傳

前往 設定 → 功能 → 技能 → 上傳技能

3

開啟並開始使用

測試它

正在使用「llm-evaluation」。 使用 ROUGE 指標評估摘要模型

預期結果:

ROUGE-1: 0.72, ROUGE-2: 0.58, ROUGE-L: 0.65 - 在單元重疊方面表現強勁,二元連續性中等

正在使用「llm-evaluation」。 使用 LLM-as-Judge 比較兩個回應

預期結果:

獲勝者:回應 B(信心度:8/10)。回應 B 提供更準確的引用和更好的結構化論點,儘管兩個答案都充分解決了核心問題。

正在使用「llm-evaluation」。 分析 A/B 測試結果的統計顯著性

預期結果:

變體 B 顯示比 A 改善 12%,p 值為 0.03。結果在 alpha=0.05 下具有統計顯著性,效果量中等(Cohen's d=0.54)。

安全審計

安全
v1 • 2/25/2026

This skill is documentation-only containing Python code examples for LLM evaluation. All static analysis findings are false positives: Python code blocks were misidentified as Ruby/shell commands, and dictionary keys were incorrectly flagged as cryptographic operations. No executable code or security risks detected.

1
已掃描檔案
486
分析行數
0
發現項
1
審計總數
未發現安全問題
審計者: claude

品質評分

38
架構
100
可維護性
87
內容
50
社群
100
安全
91
規範符合性

你能建構什麼

ML 工程師驗證模型變更

在部署提示詞或模型更新前執行全面的評估套件,以盡早發現效能回歸。

產品團隊比較 AI 供應商

針對領域特定任務基準測試多個 LLM 供應商,以做出數據驅動的供應商選擇決策。

研究團隊發布結果

產生具有適當指標和顯著性檢定的統計嚴謹評估結果,供學術發表使用。

試試這些提示

基本指標選擇
我需要評估一個產生客戶支援回應的 LLM。我應該使用哪些指標以及如何實作它們?
建立評估套件
為我的 RAG 應用程式建立一個評估套件,測量準確性、依據性和檢索品質。包含自動化和人類評估元件。
A/B 測試分析
我有兩個提示詞變體的評估分數:變體 A [scores] 和變體 B [scores]。判斷差異是否具有統計顯著性並計算效果量。
生產環境評估流程
設計一個 CI/CD 整合,在每次模型更新時執行回歸偵測,在效能下降超過 5% 時發出警報,並生成與基準線的比較報告。

最佳實務

  • 使用多個互補指標而非僅優化單一分數
  • 在測量改進前務必建立基準效能
  • 結合自動化指標與人類評估以進行全面評估

避免

  • 從過少的測試範例評估中得出結論
  • 使用與業務目標不一致的評估指標
  • 在與訓練資料重疊的資料上測試(資料汙染)

常見問題

可靠 LLM 評估的最小樣本數是多少?
對於統計顯著性檢定,目標是至少 100 個評估範例。對於高風險決策,500-1000 個範例可提供更可靠的結果和更窄的信賴區間。
我如何在自動化指標和人類評估之間選擇?
使用自動化指標進行快速迭代和回歸偵測。新增人類評估進行最終驗證,特別是在評估主觀品質如幫助性、安全性或細微正確性時。
LLM-as-Judge 能否完全取代人類評估者?
LLM-as-Judge 適用於常規品質檢查且可高效擴展,但人類評估對於複雜判斷、安全性評估和驗證裁判模型本身仍然至關重要。
我應該多久重新執行一次 LLM 應用程式的評估?
作為 CI/CD 的一部分,在每次程式碼或提示詞變更時執行評估。對於生產監控,每日或每週在新樣本上執行評估以偵測漂移或效能退化。
當指標彼此不一致時我該怎麼做?
指標不一致通常揭示權衡取捨。透過錯誤分析調查哪個指標與您的實際目標最一致,並考慮使用反映業務優先事項的加權綜合分數。
我如何評估多回合對話?
使用對話層級指標如任務完成率和使用者滿意度, alongside 回合層級指標。考慮跨回合的連貫性以及模型是否在整個對話中適當地維持上下文。

開發者詳情

檔案結構

📄 SKILL.md