技能 llm-evaluation

🧪

llm-evaluation

Name: llm-evaluation
Author: wshobson

安全 🌐 网络访问⚙️ 外部命令

构建可靠的LLM评估计划

也可从以下获取: sickn33

您需要一致的方法来衡量LLM质量和回归情况。本技能提供指标、人工评审指导和测试框架，以实现可靠的AI评估。

支持: Claude Codex Code(CC)

📊 69 充足

下载技能 ZIP

在 Claude 中上传

前往设置 → 功能 → 技能 → 上传技能

开启并开始使用

测试它

正在使用“llm-evaluation”。 Propose an evaluation plan for a RAG assistant.

预期结果:

Automated metrics: MRR, NDCG, Precision at K
Human ratings: accuracy, relevance, helpfulness
LLM judge: pairwise comparison for final answers
Regression rule: fail if accuracy drops more than 5 percent

正在使用“llm-evaluation”。 What metrics should I use to evaluate a summarization model?

预期结果:

ROUGE for n-gram overlap with reference summaries
BERTScore for semantic similarity using embeddings
Factuality score to verify claims against source text
Human readability assessment for coherence and fluency

正在使用“llm-evaluation”。 How do I detect if my model is regressing?

预期结果:

Store baseline scores from a reference model or previous version
Compare new model scores against baseline on same test set
Flag metrics where relative change exceeds your threshold
Run statistical significance test to confirm real differences

安全审计

安全

v4 • 1/17/2026

This skill contains only static documentation (SKILL.md) with no executable files. All static findings are false positives: markdown code block backticks were misidentified as Ruby/shell command execution, and JSON metadata fields were misclassified as cryptographic issues. The skill provides evaluation guidance only with no data access, network activity, or command execution capability.

已扫描文件

649

分析行数

发现项

审计总数

审计者: claude 查看审计历史 →

质量评分

架构

100

可维护性

内容

社区

100

安全

规范符合性

你能构建什么

CI中的回归门禁

设计评估清单和阈值，以阻止降低质量的模型变更。

模型比较简报

使用人工评分和自动化分数比较两个模型选项，以制作决策备忘录。

基准测试研究计划

创建包含数据集、指标和报告结构的基准测试计划。

试试这些提示

入门级评估计划

为客户支持聊天机器人创建一个包含3个自动化指标和2个人工标准的简单评估计划。

指标选择指南

为摘要任务推荐指标，解释每个指标捕获的内容，并指出每个指标的一个局限性。

LLM评判提示词

起草一个成对LLM评判提示词，用于比较A和B两个回答的准确性、有帮助性和清晰度。

A/B测试分析

描述A/B评估的统计测试计划，包括样本量指导和效应量报告。

最佳实践

同时使用多个指标和人工评审
使用具有代表性的多样化数据进行测试
跟踪基线和统计显著性

避免

依赖单一指标
在训练数据上测试
忽略小样本中的方差

常见问题

这与Claude和Codex兼容吗？

是的，该指南与模型无关，适用于Claude、Codex、Claude Code和其他LLM。

这个技能的局限性是什么？

它提供指导和示例，但此目录中没有可执行的评估流程。

如何与我的技术栈集成？

将指标和工作流映射到您现有的评估或CI工具。

它会访问或存储我的数据吗？

不，它是静态文档，不会读取或传输数据。

如果分数不稳定怎么办？

增加样本量、审查方差，并在做决策前添加人工验证。

这与基准测试列表有何不同？

它结合了指标、人工评审和测试策略，而不仅仅是列出基准测试。

开发者详情

作者

wshobson

许可证

MIT

仓库

https://github.com/wshobson/agents/tree/main/plugins/llm-application-dev/skills/llm-evaluation

引用

main

文件结构

📄 SKILL.md

llm-evaluation

测试它

安全审计

风险因素

质量评分

你能构建什么

CI中的回归门禁

模型比较简报

基准测试研究计划

试试这些提示

最佳实践

避免

常见问题

开发者详情