技能 evaluation

📊

evaluation

Name: evaluation
Author: muratcankoylan

安全 ⚙️ 外部命令🌐 网络访问

使用评估量表评估代理性能

也可从以下获取: sickn33,ChakshuGautam,Asmayaseen

测量代理质量需要结构化的方法。此技能提供多维度评估量表、测试集管理和生产监控，以持续评估和改进代理性能。

支持: Claude Codex Code(CC)

🥉 76 青铜

下载技能 ZIP

在 Claude 中上传

前往设置 → 功能 → 技能 → 上传技能

开启并开始使用

测试它

正在使用“evaluation”。评估我的研究代理在5个关于技术趋势的测试案例上的表现

预期结果:

总体通过率：80%（5个测试中通过4个）
事实准确性：0.85（良好）
完整性：0.72（良好）
引用准确性：0.65（可接受）
工具效率：0.78（良好）
需要关注的维度：引用准确性

正在使用“evaluation”。创建编码代理质量评估的量表

预期结果:

定义的量表维度：
- 代码正确性（权重：0.35）
- 代码效率（权重：0.20）
- 文档质量（权重：0.15）
- 测试覆盖率（权重：0.15）
- 错误处理（权重：0.15）
通过阈值：0.70加权平均值

安全审计

安全

v4 • 1/17/2026

Pure evaluation framework using only standard Python library imports. No network access, file system operations, or command execution detected. Static findings are false positives from misidentified patterns: markdown code blocks were flagged as Ruby backticks, rubric weights as crypto parameters, and SHA256 hashes as certificates.

已扫描文件

1,248

分析行数

发现项

审计总数

审计者: claude 查看审计历史 →

质量评分

架构

100

可维护性

内容

社区

100

安全

规范符合性

你能构建什么

构建测试框架

创建带量表的结构化测试套件，以系统性地评估代理在多个维度上的质量。

CI/CD中的质量门禁

将评估检查集成到部署管道中，以在代理投入生产之前捕获回归。

比较代理配置

测量不同的上下文策略或模型选择如何随着时间影响代理输出质量。

试试这些提示

创建量表

为[task_type]创建一个评估量表，测量 factual_accuracy、completeness 和 tool_efficiency。根据重要性为每个维度分配权重。

构建测试集

构建一个包含10个案例的测试集，涵盖简单、中等和复杂复杂度级别，用于评估[agent_type]在[use_case]上的表现。

运行评估

根据测试集评估以下代理输出。计算维度分数和总体通过/失败。报告：[agent_outputs]

监控生产

分析最近24小时的生产样本。计算通过率、平均分数，并识别任何质量下降模式。

最佳实践

使用多维度量表而非单一指标来捕捉不同的质量方面
按复杂度级别对测试集进行分层，以识别代理的薄弱环节
持续运行评估以在生产部署前捕获回归

避免

评估具体的执行步骤而非结果
仅使用自动化LLM评估而不进行人工审查
在测试集设计中忽略边缘情况

常见问题

此技能支持哪些AI平台？

适用于Claude、Codex和Claude Code。评估逻辑与平台无关。

我应该包含多少个测试案例？

从10-20个涵盖不同复杂度级别的案例开始。根据覆盖空白进行扩展。

我可以与现有的CI/CD管道集成吗？

可以。评估类返回结构化结果，适用于程序化管道集成。

此技能会存储任何用户数据吗？

不。这只是一个计算库。所有评估数据都保留在你的会话内存中。

我应该优先考虑哪些维度？

取决于你的用例。对于信息检索，事实准确性最重要。对于综合任务，完整性更重要。

这与标准LLM基准测试相比如何？

标准基准测试通用能力。此技能允许你创建针对你的代理和用例的自定义评估。

开发者详情

作者

muratcankoylan

许可证

MIT

仓库

https://github.com/muratcankoylan/Agent-Skills-for-Context-Engineering/tree/main/skills/evaluation

引用

main

文件结构

📁 references/

📄 metrics.md

📁 scripts/

📄 evaluator.py

📄 SKILL.md