Question 1

可靠的 LLM 评估所需的最小样本量是多少？

Accepted Answer

对于统计显著性测试，目标至少为 100 个评估样本。对于高风险决策，500-1000 个样本可提供更可靠的结果和更窄的置信区间。

Question 2

如何在自动化指标和人工评估之间进行选择？

Accepted Answer

使用自动化指标进行快速迭代和回归检测。添加人工评估进行最终验证，特别是在评估主观质量（如有用性、安全性或细微的正确性）时。

Question 3

LLM-as-Judge 能否完全取代人工评估员？

Accepted Answer

LLM-as-Judge 适用于常规质量检查并可高效扩展，但人工评估对于复杂判断、安全评估和验证裁判模型本身仍然至关重要。

Question 4

我应该多久重新运行一次 LLM 应用程序的评估？

Accepted Answer

作为 CI/CD 的一部分，在每次代码或提示词更改时运行评估。对于生产监控，每天或每周对新鲜样本运行评估，以检测漂移或性能下降。

Question 5

当指标相互矛盾时该怎么办？

Accepted Answer

指标不一致通常揭示了权衡关系。通过错误分析调查哪个指标与您的实际目标最一致，并考虑使用反映业务优先级的加权综合评分。

Question 6

如何评估多轮对话？

Accepted Answer

除了单轮次指标外，使用任务完成率和用户满意度等对话级指标。考虑跨轮次的连贯性以及模型在整个对话过程中是否适当地保持上下文。

llm-evaluation

测试它