Compétences ab-test-setup
📦

ab-test-setup

Sûr

Configurer des Tests A/B Rigoureux

Également disponible depuis: coreyhaines31

Les tests A/B échouent souvent en raison d'une mauvaise conception, d'un arrêt prématuré et de métriques invalides. Cette compétence impose une méthodologie rigoureuse avec des validations obligatoires pour le verrouillage de l'hypothèse, la définition des métriques et le calcul de la taille de l'échantillon avant l'exécution de tout test.

Prend en charge: Claude Codex Code(CC)
🥉 74 Bronze
1

Télécharger le ZIP du skill

2

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

3

Activez et commencez à utiliser

Tester

Utilisation de "ab-test-setup". Aidez-moi à configurer un test A/B pour notre page de paiement

Résultat attendu:

  • Étape 1 : Verrouillage de l'Hypothèse - Présentez votre hypothèse finale incluant : public cible, métrique principale, direction attendue de l'effet, et Effet Minimum Détectable (MDE). Demandez : Est-ce l'hypothèse finale à laquelle nous nous engageons ?
  • Étape 2 : Vérification des Hypothèses - Listez les hypothèses sur la stabilité du trafic, l'indépendance des utilisateurs, la fiabilité des métriques et la qualité de la randomisation.
  • Étape 3 : Sélection du Type de Test - Choisissez A/B (par défaut), A/B/n, Multivarié ou Split URL selon la complexité de votre changement.
  • Étape 4 : Définition des Métriques - Définissez votre métrique principale (obligatoire), les métriques secondaires pour le contexte, et les métriques de garde-fou qui ne doivent pas se dégrader.

Utilisation de "ab-test-setup". Mon hypothèse est-elle valide ?

Résultat attendu:

  • Liste de contrôle d'hypothèse valide :
  • ✓ Observation ou preuve - Avez-vous des données soutenant cela ?
  • ✓ Changement unique et spécifique - Le changement est-il clairement défini ?
  • ✓ Attente directionnelle - Attendez-vous une augmentation ou une diminution ?
  • ✓ Audience définie - Qui est testé ?
  • ✓ Critères de succès mesurables - Qu'est-ce qui définit le succès ?

Audit de sécurité

Sûr
v1 • 2/24/2026

All 12 static findings are false positives. The scanner detected benign A/B testing terminology (hypothesis, design, metrics, valid, peeking) and misinterpreted it as cryptographic/network security issues. This skill is a legitimate methodology guide for setting up rigorous A/B tests with statistical rigor. No actual security risks identified.

1
Fichiers analysés
238
Lignes analysées
0
résultats
1
Total des audits
Aucun problème de sécurité trouvé
Audité par: claude

Score de qualité

38
Architecture
100
Maintenabilité
87
Contenu
50
Communauté
100
Sécurité
91
Conformité aux spécifications

Ce que vous pouvez construire

Le Chef de Produit Valide la Conception du Test

Un chef de produit utilise la compétence pour structurer un test de nouvelle fonctionnalité, en s'assurant que l'hypothèse est spécifique et que les métriques sont définies avant le début du développement.

Le Data Scientist Assure la Rigueur Statistique

Un data scientist applique la méthodologie pour examiner une expérience proposée, en vérifiant les calculs de taille d'échantillon et les métriques de garde-fou.

L'Ingénieur Croissance Planifie un Test de Conversion

Un ingénieur croissance utilise la compétence pour structurer un test d'optimisation de page de destination, en verrouillant l'hypothèse et en calculant le trafic requis avant le lancement.

Essayez ces prompts

Configuration de Test de Base
Aidez-moi à configurer un test A/B. J'ai un problème utilisateur : [décrire le problème]. Je veux tester : [décrire le changement proposé]. Guidez-moi à travers les étapes de configuration obligatoires.
Validation de l'Hypothèse
Examinez mon hypothèse pour un test A/B : [coller l'hypothèse]. Respecte-t-elle la liste de contrôle de qualité ? Qu'est-ce qui manque ou doit être amélioré ?
Calcul de la Taille de l'Échantillon
Aidez-moi à calculer la taille de l'échantillon. Mon taux de conversion actuel est de [X]%. Je veux détecter une augmentation relative de [Y]%. Niveau de signification 95%, puissance 80%. Quelle taille d'échantillon me faut-il ?
Vérification de la Préparation à l'Exécution
Effectuez une vérification de préparation à l'exécution pour mon test A/B. J'ai : hypothèse [coller], métrique principale [nom], taille d'échantillon [nombre], durée [jours]. Quelles validations me manquent-elles ?

Bonnes pratiques

  • Verrouillez votre hypothèse et votre métrique principale AVANT le début de tout travail d'implémentation
  • Calculez la taille de l'échantillon au préalable et assurez-vous d'avoir assez de trafic pour la durée du test
  • Utilisez des métriques de garde-fou pour empêcher les victoires nocives qui dégradent l'expérience utilisateur

Éviter

  • Démarrer un test sans hypothèse figée - cela conduit à déplacer les objectifs
  • Examiner les résultats prématurément et arrêter les tests basés sur une signification initiale
  • Définir plusieurs métriques principales - cela augmente le risque de faux positifs

Foire aux questions

Quel est le trafic minimum nécessaire pour un test A/B ?
Cela dépend de votre taux de conversion de référence et de l'Effet Minimum Détectable. Un test typique détectant une augmentation relative de 5% sur un taux de référence de 10% nécessite environ 30 000 visiteurs par variante à 95% de signification et 80% de puissance.
Puis-je exécuter plusieurs variantes dans un seul test ?
Oui, mais chaque variante supplémentaire nécessite plus de trafic. Les tests A/B/n ont besoin d'une taille d'échantillon significativement plus grande que les tests A/B simples. Considérez si plusieurs variantes sont vraiment nécessaires ou si des tests séquentiels sont plus pratiques.
Quand dois-je arrêter un test A/B prématurément ?
Rarement. L'arrêt prématuré basé sur l'examen des résultats invalide les garanties statistiques. Arrêtez uniquement prématurément pour des défaillances techniques, des violations graves des garde-fous, ou si vous avez pré-enregistré un design adaptatif avec correction statistique appropriée.
Qu'est-ce qu'une métrique de garde-fou ?
Une métrique de garde-fou surveille que votre test ne cause pas de dommages. Exemples : revenu par utilisateur, temps de chargement de page, tickets de support client, ou taux de désabonnement. Si un garde-fou échoue, ne déployez pas même si la métrique principale gagne.
Combien de temps dois-je exécuter un test A/B ?
Exécutez les tests pendant au moins un cycle commercial complet (généralement 1-2 semaines) pour tenir compte des variations jour de semaine/week-end. Exécutez toujours pour la taille d'échantillon calculée complète, pas seulement une durée calendaire fixe.
Que faire si mon test montre des résultats non concluants ?
Des résultats non concluants signifient que vous n'avez pas détecté de différence statistiquement significative. C'est un apprentissage précieux - soit votre taille d'effet est plus petite que prévu (besoin de plus de trafic), soit le changement n'a pas d'effet (envisagez un changement plus audacieux).

Détails du développeur

Structure de fichiers

📄 SKILL.md