技能 ab-test-setup
📦

ab-test-setup

安全

Configurar Testes A/B Rigorosos

也可从以下获取: coreyhaines31

Os testes A/B frequentemente falham devido a design deficiente, interrupção prematura e métricas inválidas. Esta skill impõe metodologia rigorosa com portões obrigatórios para bloqueio de hipótese, definição de métricas e cálculo de tamanho de amostra antes de qualquer teste ser executado.

支持: Claude Codex Code(CC)
🥉 74 青铜
1

下载技能 ZIP

2

在 Claude 中上传

前往 设置 → 功能 → 技能 → 上传技能

3

开启并开始使用

测试它

正在使用“ab-test-setup”。 Help me set up an A/B test for our checkout page

预期结果:

  • Step 1: Hypothesis Lock - Apresente sua hipótese final incluindo: audiência-alvo, métrica primária, direção esperada do efeito e Efeito Mínimo Detectável (MDE). Pergunta: Esta é a hipótese final que estamos comprometendo?
  • Step 2: Assumptions Check - Liste suposições sobre estabilidade de tráfego, independência do usuário, confiabilidade da métrica e qualidade da randomização.
  • Step 3: Test Type Selection - Escolha A/B (padrão), A/B/n, Multivariate ou Split URL com base na complexidade da sua mudança.
  • Step 4: Metrics Definition - Defina sua métrica primária (obrigatória), métricas secundárias para contexto e métricas de proteção que não devem degradar.

正在使用“ab-test-setup”。 Is my hypothesis valid?

预期结果:

  • Lista de verificação de hipótese válida:
  • ✓ Observação ou evidência - Você tem dados apoiando isso?
  • ✓ Mudança única e específica - A mudança está claramente definida?
  • ✓ Expectativa direcional - Você espera aumento ou diminuição?
  • ✓ Audiência definida - Quem está sendo testado?
  • ✓ Critérios de sucesso mensuráveis - O que define sucesso?

安全审计

安全
v1 • 2/24/2026

All 12 static findings are false positives. The scanner detected benign A/B testing terminology (hypothesis, design, metrics, valid, peeking) and misinterpreted it as cryptographic/network security issues. This skill is a legitimate methodology guide for setting up rigorous A/B tests with statistical rigor. No actual security risks identified.

1
已扫描文件
238
分析行数
0
发现项
1
审计总数
未发现安全问题
审计者: claude

质量评分

38
架构
100
可维护性
87
内容
50
社区
100
安全
91
规范符合性

你能构建什么

Product Manager Valida Design do Teste

Um product manager usa a skill para estruturar um novo teste de feature, garantindo que a hipótese seja específica e as métricas sejam definidas antes do início do desenvolvimento.

Cientista de Dados Garante Rigor Estatístico

Um cientista de dados aplica a metodologia para revisar um experimento proposto, verificando cálculos de tamanho de amostra e métricas de proteção.

Growth Engineer Planeja Teste de Conversão

Um growth engineer usa a skill para estruturar um teste de otimização de landing page, bloqueando a hipótese e calculando o tráfego necessário antes do lançamento.

试试这些提示

Configuração Básica de Teste
Ajude-me a configurar um teste A/B. Eu tenho um problema de usuário: [describe problem]. Eu quero testar: [describe proposed change]. Guide-me pelos passos obrigatórios de configuração.
Validação de Hipótese
Revise minha hipótese para um teste A/B: [paste hypothesis]. Ela atende à lista de verificação de qualidade? O que está faltando ou precisa ser melhorado?
Cálculo de Tamanho de Amostra
Ajude-me a calcular o tamanho de amostra. Minha taxa de conversão atual é [X]%. Eu quero detectar uma elevação relativa de [Y]%. Nível de significância 95%, poder 80%. Qual tamanho de amostra eu preciso?
Verificação de Prontidão de Execução
Execute uma verificação de prontidão de execução para meu teste A/B. Eu tenho: hipótese [paste], métrica primária [name], tamanho de amostra [number], duração [days]. Quais portões estou perdendo?

最佳实践

  • Bloqueie sua hipótese e métrica primária ANTES de qualquer trabalho de implementação começar
  • Calcule o tamanho de amostra antecipadamente e garanta que você tem tráfego suficiente para a duração do teste
  • Use métricas de proteção para evitar vitórias prejudiciais que danificam a experiência do usuário

避免

  • Iniciar um teste sem uma hipótese congelada - isso leva a mudar as metas constantemente
  • Olhar os resultados antecipadamente e interromper testes com base na significância inicial
  • Definir múltiplas métricas primárias - isso aumenta o risco de falsos positivos

常见问题

Qual é o tráfego mínimo necessário para um teste A/B?
Depende da sua taxa de conversão base e do Efeito Mínimo Detectável. Um teste típico detectando uma elevação relativa de 5% em uma taxa base de 10% precisa de aproximadamente 30.000 visitantes por variante a 95% de significância e 80% de poder.
Posso executar múltiplas variantes em um teste?
Sim, mas cada variante adicional requer mais tráfego. Testes A/B/n precisam de tamanho de amostra significativamente maior do que testes A/B simples. Considere se múltiplas variantes são realmente necessárias ou se testes sequenciais são mais práticos.
Quando devo interromper um teste A/B antecipadamente?
Raramente. A interrupção antecipada com base em olayas invalida as garantias estatísticas. Só pare antecipadamente por falhas técnicas, violações graves de proteção, ou se você registrou previamente um design adaptativo com correção estatística adequada.
O que é uma métrica de proteção?
Uma métrica de proteção monitora que seu teste não cause danos. Exemplos incluem: receita por usuário, tempo de carregamento de página, tickets de suporte ao cliente ou taxa de cancelamento. Se uma proteção falhar, não lance mesmo que a métrica primária vença.
Por quanto tempo devo executar um teste A/B?
Execute testes por pelo menos um ciclo de negócio completo (tipicamente 1-2 semanas) para contabilizar variações de dia de semana/fim de semana. Sempre execute pelo tamanho de amostra completo calculado, não apenas uma duração de calendário fixa.
E se meu teste mostrar resultados inconclusivos?
Resultados inconclusivos significam que você não detectou uma diferença estatisticamente significativa. Este é um aprendizado valioso - ou seu tamanho de efeito é menor que o esperado (precisa de mais tráfego) ou a mudança não tem efeito (considere uma mudança mais ousada).

开发者详情

文件结构

📄 SKILL.md