下载技能 ZIP
在 Claude 中上传
前往 设置 → 功能 → 技能 → 上传技能
开启并开始使用
测试它
正在使用“llm-evaluation”。 使用 ROUGE 指标评估摘要模型
预期结果:
ROUGE-1: 0.72, ROUGE-2: 0.58, ROUGE-L: 0.65 - 在一元组重叠方面表现强劲,二元组连贯性中等
正在使用“llm-evaluation”。 使用 LLM-as-Judge 比较两个回复
预期结果:
获胜者:回复 B(置信度:8/10)。回复 B 提供更准确的引用和更好的结构化论点,尽管两个回答都充分解决了核心问题。
正在使用“llm-evaluation”。 分析 A/B 测试结果的统计显著性
预期结果:
变体 B 显示比 A 提高 12%,p 值为 0.03。结果在 alpha=0.05 水平上具有统计显著性,效应量中等(Cohen's d=0.54)。
安全审计
安全This skill is documentation-only containing Python code examples for LLM evaluation. All static analysis findings are false positives: Python code blocks were misidentified as Ruby/shell commands, and dictionary keys were incorrectly flagged as cryptographic operations. No executable code or security risks detected.
质量评分
你能构建什么
ML 工程师验证模型变更
在部署提示词或模型更新之前运行全面的评估套件,尽早发现性能回归。
产品团队比较 AI 供应商
在领域特定任务上对多个 LLM 供应商进行基准测试,以数据驱动的方式做出供应商选择决策。
研究团队发布结果
生成具有适当指标和显著性测试的统计严谨评估结果,用于学术发表。
试试这些提示
I need to evaluate an LLM that generates customer support responses. What metrics should I use and how do I implement them?
Create an evaluation suite for my RAG application that measures accuracy, groundedness, and retrieval quality. Include both automated and human evaluation components.
I have evaluation scores from two prompt variants: Variant A [scores] and Variant B [scores]. Determine if the difference is statistically significant and calculate effect size.
Design a CI/CD integration that runs regression detection on every model update, alerts on performance drops above 5 percent, and generates comparison reports against baseline.
最佳实践
- 使用多个互补指标,而不是针对单一分数进行优化
- 在衡量改进之前始终建立基线性能
- 将自动化指标与人工评估相结合,进行全面评估
避免
- 从过少的测试样本评估中得出结论
- 使用与业务目标不一致的评估指标
- 在与训练数据重叠的数据上测试(数据污染)