技能 evaluation
1
下载技能 ZIP
2
在 Claude 中上传
前往 设置 → 功能 → 技能 → 上传技能
3
开启并开始使用
测试它
正在使用“evaluation”。 评估我的研究代理在5个关于技术趋势的测试案例上的表现
预期结果:
- 总体通过率:80%(5个测试中通过4个)
- 事实准确性:0.85(良好)
- 完整性:0.72(良好)
- 引用准确性:0.65(可接受)
- 工具效率:0.78(良好)
- 需要关注的维度:引用准确性
正在使用“evaluation”。 创建编码代理质量评估的量表
预期结果:
- 定义的量表维度:
- - 代码正确性(权重:0.35)
- - 代码效率(权重:0.20)
- - 文档质量(权重:0.15)
- - 测试覆盖率(权重:0.15)
- - 错误处理(权重:0.15)
- 通过阈值:0.70加权平均值
安全审计
安全v4 • 1/17/2026
Pure evaluation framework using only standard Python library imports. No network access, file system operations, or command execution detected. Static findings are false positives from misidentified patterns: markdown code blocks were flagged as Ruby backticks, rubric weights as crypto parameters, and SHA256 hashes as certificates.
4
已扫描文件
1,248
分析行数
2
发现项
4
审计总数
风险因素
⚙️ 外部命令 (20)
references/metrics.md:11-17 references/metrics.md:17-29 references/metrics.md:29-35 references/metrics.md:35-41 references/metrics.md:41-47 references/metrics.md:47-53 references/metrics.md:53-59 references/metrics.md:59-65 references/metrics.md:65-71 references/metrics.md:71-75 references/metrics.md:75-146 references/metrics.md:146-150 references/metrics.md:150-187 references/metrics.md:187-191 references/metrics.md:191-281 references/metrics.md:281-285 references/metrics.md:285-338 SKILL.md:143-151 SKILL.md:151-157 SKILL.md:157-185
🌐 网络访问 (1)
审计者: claude 查看审计历史 →
质量评分
64
架构
100
可维护性
87
内容
21
社区
100
安全
91
规范符合性
你能构建什么
构建测试框架
创建带量表的结构化测试套件,以系统性地评估代理在多个维度上的质量。
CI/CD中的质量门禁
将评估检查集成到部署管道中,以在代理投入生产之前捕获回归。
比较代理配置
测量不同的上下文策略或模型选择如何随着时间影响代理输出质量。
试试这些提示
创建量表
为[task_type]创建一个评估量表,测量 factual_accuracy、completeness 和 tool_efficiency。根据重要性为每个维度分配权重。
构建测试集
构建一个包含10个案例的测试集,涵盖简单、中等和复杂复杂度级别,用于评估[agent_type]在[use_case]上的表现。
运行评估
根据测试集评估以下代理输出。计算维度分数和总体通过/失败。报告:[agent_outputs]
监控生产
分析最近24小时的生产样本。计算通过率、平均分数,并识别任何质量下降模式。
最佳实践
- 使用多维度量表而非单一指标来捕捉不同的质量方面
- 按复杂度级别对测试集进行分层,以识别代理的薄弱环节
- 持续运行评估以在生产部署前捕获回归
避免
- 评估具体的执行步骤而非结果
- 仅使用自动化LLM评估而不进行人工审查
- 在测试集设计中忽略边缘情况
常见问题
此技能支持哪些AI平台?
适用于Claude、Codex和Claude Code。评估逻辑与平台无关。
我应该包含多少个测试案例?
从10-20个涵盖不同复杂度级别的案例开始。根据覆盖空白进行扩展。
我可以与现有的CI/CD管道集成吗?
可以。评估类返回结构化结果,适用于程序化管道集成。
此技能会存储任何用户数据吗?
不。这只是一个计算库。所有评估数据都保留在你的会话内存中。
我应该优先考虑哪些维度?
取决于你的用例。对于信息检索,事实准确性最重要。对于综合任务,完整性更重要。
这与标准LLM基准测试相比如何?
标准基准测试通用能力。此技能允许你创建针对你的代理和用例的自定义评估。
开发者详情
许可证
MIT
仓库
https://github.com/muratcankoylan/Agent-Skills-for-Context-Engineering/tree/main/skills/evaluation引用
main
文件结构