Question 1

可靠 LLM 評估的最小樣本數是多少？

Accepted Answer

對於統計顯著性檢定，目標是至少 100 個評估範例。對於高風險決策，500-1000 個範例可提供更可靠的結果和更窄的信賴區間。

Question 2

我如何在自動化指標和人類評估之間選擇？

Accepted Answer

使用自動化指標進行快速迭代和回歸偵測。新增人類評估進行最終驗證，特別是在評估主觀品質如幫助性、安全性或細微正確性時。

Question 3

LLM-as-Judge 能否完全取代人類評估者？

Accepted Answer

LLM-as-Judge 適用於常規品質檢查且可高效擴展，但人類評估對於複雜判斷、安全性評估和驗證裁判模型本身仍然至關重要。

Question 4

我應該多久重新執行一次 LLM 應用程式的評估？

Accepted Answer

作為 CI/CD 的一部分，在每次程式碼或提示詞變更時執行評估。對於生產監控，每日或每週在新樣本上執行評估以偵測漂移或效能退化。

Question 5

當指標彼此不一致時我該怎麼做？

Accepted Answer

指標不一致通常揭示權衡取捨。透過錯誤分析調查哪個指標與您的實際目標最一致，並考慮使用反映業務優先事項的加權綜合分數。

Question 6

我如何評估多回合對話？

Accepted Answer

使用對話層級指標如任務完成率和使用者滿意度， alongside 回合層級指標。考慮跨回合的連貫性以及模型是否在整個對話中適當地維持上下文。

llm-evaluation

測試它