技能 llm-evaluation
📦

llm-evaluation

安全

使用综合指标评估 LLM 应用程序

也可从以下获取: wshobson

衡量 LLM 性能复杂且容易出错。本技能提供系统化的评估框架,结合自动化指标、人工判断和统计测试来验证 AI 应用质量。

支持: Claude Codex Code(CC)
🥉 74 青铜
1

下载技能 ZIP

2

在 Claude 中上传

前往 设置 → 功能 → 技能 → 上传技能

3

开启并开始使用

测试它

正在使用“llm-evaluation”。 使用 ROUGE 指标评估摘要模型

预期结果:

ROUGE-1: 0.72, ROUGE-2: 0.58, ROUGE-L: 0.65 - 在一元组重叠方面表现强劲,二元组连贯性中等

正在使用“llm-evaluation”。 使用 LLM-as-Judge 比较两个回复

预期结果:

获胜者:回复 B(置信度:8/10)。回复 B 提供更准确的引用和更好的结构化论点,尽管两个回答都充分解决了核心问题。

正在使用“llm-evaluation”。 分析 A/B 测试结果的统计显著性

预期结果:

变体 B 显示比 A 提高 12%,p 值为 0.03。结果在 alpha=0.05 水平上具有统计显著性,效应量中等(Cohen's d=0.54)。

安全审计

安全
v1 • 2/25/2026

This skill is documentation-only containing Python code examples for LLM evaluation. All static analysis findings are false positives: Python code blocks were misidentified as Ruby/shell commands, and dictionary keys were incorrectly flagged as cryptographic operations. No executable code or security risks detected.

1
已扫描文件
486
分析行数
0
发现项
1
审计总数
未发现安全问题
审计者: claude

质量评分

38
架构
100
可维护性
87
内容
50
社区
100
安全
91
规范符合性

你能构建什么

ML 工程师验证模型变更

在部署提示词或模型更新之前运行全面的评估套件,尽早发现性能回归。

产品团队比较 AI 供应商

在领域特定任务上对多个 LLM 供应商进行基准测试,以数据驱动的方式做出供应商选择决策。

研究团队发布结果

生成具有适当指标和显著性测试的统计严谨评估结果,用于学术发表。

试试这些提示

基础指标选择
I need to evaluate an LLM that generates customer support responses. What metrics should I use and how do I implement them?
构建评估套件
Create an evaluation suite for my RAG application that measures accuracy, groundedness, and retrieval quality. Include both automated and human evaluation components.
A/B 测试分析
I have evaluation scores from two prompt variants: Variant A [scores] and Variant B [scores]. Determine if the difference is statistically significant and calculate effect size.
生产环境评估管道
Design a CI/CD integration that runs regression detection on every model update, alerts on performance drops above 5 percent, and generates comparison reports against baseline.

最佳实践

  • 使用多个互补指标,而不是针对单一分数进行优化
  • 在衡量改进之前始终建立基线性能
  • 将自动化指标与人工评估相结合,进行全面评估

避免

  • 从过少的测试样本评估中得出结论
  • 使用与业务目标不一致的评估指标
  • 在与训练数据重叠的数据上测试(数据污染)

常见问题

可靠的 LLM 评估所需的最小样本量是多少?
对于统计显著性测试,目标至少为 100 个评估样本。对于高风险决策,500-1000 个样本可提供更可靠的结果和更窄的置信区间。
如何在自动化指标和人工评估之间进行选择?
使用自动化指标进行快速迭代和回归检测。添加人工评估进行最终验证,特别是在评估主观质量(如有用性、安全性或细微的正确性)时。
LLM-as-Judge 能否完全取代人工评估员?
LLM-as-Judge 适用于常规质量检查并可高效扩展,但人工评估对于复杂判断、安全评估和验证裁判模型本身仍然至关重要。
我应该多久重新运行一次 LLM 应用程序的评估?
作为 CI/CD 的一部分,在每次代码或提示词更改时运行评估。对于生产监控,每天或每周对新鲜样本运行评估,以检测漂移或性能下降。
当指标相互矛盾时该怎么办?
指标不一致通常揭示了权衡关系。通过错误分析调查哪个指标与您的实际目标最一致,并考虑使用反映业务优先级的加权综合评分。
如何评估多轮对话?
除了单轮次指标外,使用任务完成率和用户满意度等对话级指标。考虑跨轮次的连贯性以及模型在整个对话过程中是否适当地保持上下文。

开发者详情

文件结构

📄 SKILL.md