技能 llm-evaluation
1
下载技能 ZIP
2
在 Claude 中上传
前往 设置 → 功能 → 技能 → 上传技能
3
开启并开始使用
测试它
正在使用“llm-evaluation”。 Propose an evaluation plan for a RAG assistant.
预期结果:
- Automated metrics: MRR, NDCG, Precision at K
- Human ratings: accuracy, relevance, helpfulness
- LLM judge: pairwise comparison for final answers
- Regression rule: fail if accuracy drops more than 5 percent
正在使用“llm-evaluation”。 What metrics should I use to evaluate a summarization model?
预期结果:
- ROUGE for n-gram overlap with reference summaries
- BERTScore for semantic similarity using embeddings
- Factuality score to verify claims against source text
- Human readability assessment for coherence and fluency
正在使用“llm-evaluation”。 How do I detect if my model is regressing?
预期结果:
- Store baseline scores from a reference model or previous version
- Compare new model scores against baseline on same test set
- Flag metrics where relative change exceeds your threshold
- Run statistical significance test to confirm real differences
安全审计
安全v4 • 1/17/2026
This skill contains only static documentation (SKILL.md) with no executable files. All static findings are false positives: markdown code block backticks were misidentified as Ruby/shell command execution, and JSON metadata fields were misclassified as cryptographic issues. The skill provides evaluation guidance only with no data access, network activity, or command execution capability.
2
已扫描文件
649
分析行数
2
发现项
4
审计总数
风险因素
🌐 网络访问 (1)
⚙️ 外部命令 (23)
SKILL.md:66-95 SKILL.md:95-100 SKILL.md:100-118 SKILL.md:118-121 SKILL.md:121-134 SKILL.md:134-137 SKILL.md:137-154 SKILL.md:154-157 SKILL.md:157-182 SKILL.md:182-187 SKILL.md:187-214 SKILL.md:214-217 SKILL.md:217-245 SKILL.md:245-250 SKILL.md:250-286 SKILL.md:286-289 SKILL.md:289-309 SKILL.md:309-314 SKILL.md:314-366 SKILL.md:366-371 SKILL.md:371-404 SKILL.md:404-409 SKILL.md:409-441
审计者: claude 查看审计历史 →
质量评分
38
架构
100
可维护性
85
内容
21
社区
100
安全
91
规范符合性
你能构建什么
CI中的回归门禁
设计评估清单和阈值,以阻止降低质量的模型变更。
模型比较简报
使用人工评分和自动化分数比较两个模型选项,以制作决策备忘录。
基准测试研究计划
创建包含数据集、指标和报告结构的基准测试计划。
试试这些提示
入门级评估计划
为客户支持聊天机器人创建一个包含3个自动化指标和2个人工标准的简单评估计划。
指标选择指南
为摘要任务推荐指标,解释每个指标捕获的内容,并指出每个指标的一个局限性。
LLM评判提示词
起草一个成对LLM评判提示词,用于比较A和B两个回答的准确性、有帮助性和清晰度。
A/B测试分析
描述A/B评估的统计测试计划,包括样本量指导和效应量报告。
最佳实践
- 同时使用多个指标和人工评审
- 使用具有代表性的多样化数据进行测试
- 跟踪基线和统计显著性
避免
- 依赖单一指标
- 在训练数据上测试
- 忽略小样本中的方差
常见问题
这与Claude和Codex兼容吗?
是的,该指南与模型无关,适用于Claude、Codex、Claude Code和其他LLM。
这个技能的局限性是什么?
它提供指导和示例,但此目录中没有可执行的评估流程。
如何与我的技术栈集成?
将指标和工作流映射到您现有的评估或CI工具。
它会访问或存储我的数据吗?
不,它是静态文档,不会读取或传输数据。
如果分数不稳定怎么办?
增加样本量、审查方差,并在做决策前添加人工验证。
这与基准测试列表有何不同?
它结合了指标、人工评审和测试策略,而不仅仅是列出基准测试。