incident-responder
Répondre aux incidents de production
Obtenez une expertise pour gérer les incidents de production avec des protocoles de réponse structurés, des techniques d'investigation basées sur l'observabilité et des processus de post-mortem sans blâme afin de minimiser le MTTR et d'améliorer la fiabilité du système.
تنزيل ZIP المهارة
رفع في Claude
اذهب إلى Settings → Capabilities → Skills → Upload skill
فعّل وابدأ الاستخدام
اختبرها
استخدام "incident-responder". Nous avons un incident de production. Le service de paiement retourne des erreurs 500 à 30% des utilisateurs.
النتيجة المتوقعة:
## Évaluation immédiate
**Gravité : P1** - Fonctionnalité majeure dégradée, impact utilisateur significatif
### 1. Établir le commandement d'incident
- **Incident Commander** : [À assigner maintenant]
- **Technical Lead** : Démarrer l'investigation
- **Communication Lead** : Préparer la mise à jour des parties prenantes
### 2. Évaluation rapide de l'impact
- Impact utilisateur : ~30% des requêtes de paiement échouent
- Impact business : Impact sur les revenus probable, violation SLA possible
- Périmètre : Service de paiement uniquement, vérifier les effets en aval
### 3. Options de stabilisation immédiates
- Vérifier les déploiements récents (30 dernières min)
- Activer le feature flag pour désactiver les paiements si nécessaire
-Scaler les pods du service de paiement si limités en ressources
- Vérifier la santé du pool de connexions à la base de données
### 4. Première communication
- Mettre à jour la status page dans les 15 minutes
- Interne : Créer un canal d'incident, notifier l'astreinte
- Définir l'attente : Mises à jour horaires pour P1
استخدام "incident-responder". Aidez-moi à rédiger un post-mortem pour une panne de base de données qui a causé 2 heures d'indisponibilité.
النتيجة المتوقعة:
## Template de post-mortem
### Résumé de l'incident
- **Durée** : [Start] to [End] - 2 heures
- **Impact** : Indisponibilité complète du service de paiement
- **Utilisateurs affectés** : 100% des utilisateurs de paiement
- **Niveau SEV** : P0
### Timeline (heure locale)
- 14:00 - Les alertes se déclenchent pour les taux d'erreur élevés
- 14:05 - L'astreinte prend connaissance, démarre l'investigation
- 14:15 - Cause racine identifiée comme épuisement du pool de connexions DB
- 14:30 - Décision de redémarrer le service
- 15:45 - Service entièrement récupéré
- 16:00 - Incident clôturé
### Analyse des causes racines (Five Whys)
1. Pourquoi le service de paiement a-t-il échoué ? Pool de connexions base de données épuisé
2. Pourquoi le pool était-il épuisé ? L'application fuyait des connexions pendant la tempête de retry
3. Pourquoi la tempête de retry s'est-elle produite ? Circuit breaker manquant sur l'API downstream
4. Pourquoi le circuit breaker manquait-il ? Fonctionnalité non implémentée dans la refonte
5. Pourquoi ? Lacune dans les exigences de fiabilité pendant la migration
### Action Items
- [ ] Implémenter le pattern circuit breaker (Propriétaire : Team A, Échéance : 2 semaines)
- [ ] Ajouter des alertes de monitoring du pool de connexions (Propriétaire : Team B, Échéance : 1 semaine)
- [ ] Mettre à jour la checklist de migration pour inclure les exigences de fiabilité (Propriétaire : Team C, Échéance : 1 semaine)
التدقيق الأمني
آمنPrompt-only skill containing educational content about SRE incident management practices. Static analysis scanned 0 files (0 lines) and detected 0 security issues. The skill provides guidance on incident response procedures, observability practices, and post-incident analysis. No executable code, no network calls, no file operations, and no prompt injection attempts detected. This is a safe, informational skill for incident response education.
درجة الجودة
ماذا يمكنك بناءه
Réponse aux incidents de production actifs
Utiliser pendant les incidents en cours pour suivre des protocoles de réponse structurés, évaluer la gravité, établir le commandement d'incident et coordonner la communication avec les parties prenantes.
Analyse post-incident et apprentissage
Faciliter les post-mortems sans blâme en guidant la création de timeline, l'analyse des causes racines avec la technique des cinq pourquoi, et l'identification d'améliorations actionnables.
Pratique et formation SRE
Apprendre les meilleures pratiques de gestion d'incidents, les techniques d'observabilité modernes et les patterns de fiabilité pour construire des systèmes plus résilients.
جرّب هذه الموجهات
Nous avons un incident de production. Le service [service name] rencontre [symptoms]. Aidez-moi à évaluer la gravité, établir le commandement d'incident et identifier les étapes immédiates de stabilisation.
Nous avons un incident [P1/P2] affectant [service]. L'investigation initiale montre [observed symptoms]. Guidez-moi à travers une investigation basée sur l'observabilité pour identifier la cause racine.
Nous sommes au milieu d'un incident [P0/P1]. J'ai besoin de rédiger des mises à jour pour [executives/customers/support team]. Que dois-je communiquer et à quelle fréquence ?
Aidez-moi à mener un post-mortem sans blâme pour un incident où [brief description]. Guidez-moi pour créer la timeline, l'analyse des causes racines et identifier les action items.
أفضل الممارسات
- Établir la structure de commandement d'incident immédiatement - un ownership flou retarde la résolution
- Communiquer de manière proactive et fréquente - les parties prenantes préfèrent les mises à jour au silence
- Se concentrer d'abord sur la restauration du service, l'analyse des causes racines ensuite pendant les incidents actifs
- Tout documenter en temps réel - les timelines et décisions sont plus difficiles à reconstituer plus tard
تجنب
- Blâmer des individus dans les post-mortems - se concentrer sur les systèmes et processus à la place
- Sauter le commandement d'incident pour un 'tout le monde répond' - cause un chaos de coordination
- Retarder la communication pour avoir des informations complètes - les parties prenantes ont besoin de mises à jour en temps opportun
- Implémenter des fixes complexes pendant les incidents actifs - préférer les fixes minimaux viables