技能 ab-test-setup
📦
A/B 测试常因设计不当、过早停止和指标无效而失败。本技能强制执行严格的方法论,在任何测试运行前必须完成假设锁定、指标定义和样本量计算的强制门控。
支持: Claude Codex Code(CC)
1
下载技能 ZIP
2
在 Claude 中上传
前往 设置 → 功能 → 技能 → 上传技能
3
开启并开始使用
测试它
正在使用“ab-test-setup”。 帮我为结账页面设置 A/B 测试
预期结果:
- 步骤 1:假设锁定 - 展示您的最终假设,包括:目标受众、主要指标、预期效应方向和最小可检测效应 (MDE)。询问:这是我们承诺的最终假设吗?
- 步骤 2:假设检查 - 列出关于流量稳定性、用户独立性、指标可靠性和随机化质量的假设。
- 步骤 3:测试类型选择 - 根据变更复杂程度选择 A/B(默认)、A/B/n、多变量或拆分 URL。
- 步骤 4:指标定义 - 定义您的主要指标(必填)、用于上下文分析的次要指标和不得退化的护栏指标。
正在使用“ab-test-setup”。 我的假设有效吗?
预期结果:
- 有效假设清单:
- ✓ 观察或证据 - 您有支持此假设的数据吗?
- ✓ 单一、具体的变更 - 变更是否明确定义?
- ✓ 方向性预期 - 您预期增加还是减少?
- ✓ 定义受众 - 谁是测试对象?
- ✓ 可衡量的成功标准 - 什么定义成功?
安全审计
安全v1 • 2/24/2026
All 12 static findings are false positives. The scanner detected benign A/B testing terminology (hypothesis, design, metrics, valid, peeking) and misinterpreted it as cryptographic/network security issues. This skill is a legitimate methodology guide for setting up rigorous A/B tests with statistical rigor. No actual security risks identified.
1
已扫描文件
238
分析行数
0
发现项
1
审计总数
未发现安全问题
审计者: claude
质量评分
38
架构
100
可维护性
87
内容
50
社区
100
安全
91
规范符合性
你能构建什么
产品经理验证测试设计
产品经理使用该技能来构建新功能测试,确保在工程开始前假设是具体的且指标已定义。
数据科学家确保统计严谨性
数据科学家应用该方法论来审查拟议的实验,检查样本量计算和护栏指标。
增长工程师规划转化测试
增长工程师使用该技能来构建落地页优化测试,在启动前锁定假设并计算所需流量。
试试这些提示
基础测试设置
帮我设置一个 A/B 测试。我有一个用户问题:[描述问题]。我想测试:[描述拟议的变更]。引导我完成强制设置步骤。
假设验证
审查我的 A/B 测试假设:[粘贴假设]。它是否符合质量清单?缺少什么或需要改进什么?
样本量计算
帮我计算样本量。我当前的转化率是 [X]%。我想检测 [Y]% 的相对提升。显著性水平 95%,功效 80%。我需要多少样本量?
执行就绪检查
对我的 A/B 测试执行执行就绪检查。我有:假设 [粘贴]、主要指标 [名称]、样本量 [数量]、持续时间 [天]。我缺少哪些门控?
最佳实践
- 在任何实施工作开始之前,锁定您的假设和主要指标
- 提前计算样本量,确保测试持续时间内有足够的流量
- 使用护栏指标防止损害用户体验的有害胜利
避免
- 在没有冻结假设的情况下开始测试——这会导致移动目标
- 过早查看结果并根据初始显著性停止测试
- 定义多个主要指标——这会增加假阳性风险
常见问题
A/B 测试需要的最少流量是多少?
这取决于您的基准转化率和最小可检测效应。检测基准率 10% 上 5% 相对提升的典型测试,在 95% 显著性和 80% 功效下,每个变体需要约 30,000 名访客。
我可以在一个测试中运行多个变体吗?
可以,但每个附加变体需要更多流量。A/B/n 测试比简单 A/B 测试需要明显更多的样本量。考虑多个变体是否真正必要,或者顺序测试是否更实用。
我应该什么时候提前停止 A/B 测试?
很少。基于查看的早期停止会使统计保证失效。只有在技术失败、严重的护栏违规或您已预注册了具有适当统计校正的自适应设计时才提前停止。
什么是护栏指标?
护栏指标监控您的测试不会造成伤害。示例包括:每用户收入、页面加载时间、客户支持工单或退订率。如果护栏失败,即使主要指标获胜也不要发布。
我应该运行 A/B 测试多长时间?
至少运行一个完整业务周期(通常 1-2 周)以考虑工作日/周末变化。始终运行完整的计算样本量,而不是固定的日历持续时间。
如果我的测试显示不确定结果怎么办?
结果不确定意味着您未检测到统计显著差异。这是宝贵的学习——要么您的效应量小于预期(需要更多流量),要么变更没有效应(考虑更大胆的变更)。