Compétences incident-responder

🚨

incident-responder

Name: incident-responder
Author: sickn33

Sûr

Répondre aux incidents de production

Obtenez une expertise pour gérer les incidents de production avec des protocoles de réponse structurés, des techniques d'investigation basées sur l'observabilité et des processus de post-mortem sans blâme afin de minimiser le MTTR et d'améliorer la fiabilité du système.

Prend en charge: Claude Codex Code(CC)

📊 71 Adéquat

Télécharger le ZIP du skill

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

Activez et commencez à utiliser

Tester

Utilisation de "incident-responder". Nous avons un incident de production. Le service de paiement retourne des erreurs 500 à 30% des utilisateurs.

Résultat attendu:

## Évaluation immédiate

**Gravité : P1** - Fonctionnalité majeure dégradée, impact utilisateur significatif

### 1. Établir le commandement d'incident
- **Incident Commander** : [À assigner maintenant]
- **Technical Lead** : Démarrer l'investigation
- **Communication Lead** : Préparer la mise à jour des parties prenantes

### 2. Évaluation rapide de l'impact
- Impact utilisateur : ~30% des requêtes de paiement échouent
- Impact business : Impact sur les revenus probable, violation SLA possible
- Périmètre : Service de paiement uniquement, vérifier les effets en aval

### 3. Options de stabilisation immédiates
- Vérifier les déploiements récents (30 dernières min)
- Activer le feature flag pour désactiver les paiements si nécessaire
-Scaler les pods du service de paiement si limités en ressources
- Vérifier la santé du pool de connexions à la base de données

### 4. Première communication
- Mettre à jour la status page dans les 15 minutes
- Interne : Créer un canal d'incident, notifier l'astreinte
- Définir l'attente : Mises à jour horaires pour P1

Utilisation de "incident-responder". Aidez-moi à rédiger un post-mortem pour une panne de base de données qui a causé 2 heures d'indisponibilité.

Résultat attendu:

## Template de post-mortem

### Résumé de l'incident
- **Durée** : [Start] to [End] - 2 heures
- **Impact** : Indisponibilité complète du service de paiement
- **Utilisateurs affectés** : 100% des utilisateurs de paiement
- **Niveau SEV** : P0

### Timeline (heure locale)
- 14:00 - Les alertes se déclenchent pour les taux d'erreur élevés
- 14:05 - L'astreinte prend connaissance, démarre l'investigation
- 14:15 - Cause racine identifiée comme épuisement du pool de connexions DB
- 14:30 - Décision de redémarrer le service
- 15:45 - Service entièrement récupéré
- 16:00 - Incident clôturé

### Analyse des causes racines (Five Whys)
1. Pourquoi le service de paiement a-t-il échoué ? Pool de connexions base de données épuisé
2. Pourquoi le pool était-il épuisé ? L'application fuyait des connexions pendant la tempête de retry
3. Pourquoi la tempête de retry s'est-elle produite ? Circuit breaker manquant sur l'API downstream
4. Pourquoi le circuit breaker manquait-il ? Fonctionnalité non implémentée dans la refonte
5. Pourquoi ? Lacune dans les exigences de fiabilité pendant la migration

### Action Items
- [ ] Implémenter le pattern circuit breaker (Propriétaire : Team A, Échéance : 2 semaines)
- [ ] Ajouter des alertes de monitoring du pool de connexions (Propriétaire : Team B, Échéance : 1 semaine)
- [ ] Mettre à jour la checklist de migration pour inclure les exigences de fiabilité (Propriétaire : Team C, Échéance : 1 semaine)

Audit de sécurité

Sûr

v1 • 2/25/2026

Prompt-only skill containing educational content about SRE incident management practices. Static analysis scanned 0 files (0 lines) and detected 0 security issues. The skill provides guidance on incident response procedures, observability practices, and post-incident analysis. No executable code, no network calls, no file operations, and no prompt injection attempts detected. This is a safe, informational skill for incident response education.

Fichiers analysés

Lignes analysées

résultats

Total des audits

Aucun problème de sécurité trouvé

Audité par: claude

Score de qualité

Architecture

100

Maintenabilité

Contenu

Communauté

100

Sécurité

Conformité aux spécifications

Ce que vous pouvez construire

Réponse aux incidents de production actifs

Utiliser pendant les incidents en cours pour suivre des protocoles de réponse structurés, évaluer la gravité, établir le commandement d'incident et coordonner la communication avec les parties prenantes.

Analyse post-incident et apprentissage

Faciliter les post-mortems sans blâme en guidant la création de timeline, l'analyse des causes racines avec la technique des cinq pourquoi, et l'identification d'améliorations actionnables.

Pratique et formation SRE

Apprendre les meilleures pratiques de gestion d'incidents, les techniques d'observabilité modernes et les patterns de fiabilité pour construire des systèmes plus résilients.

Essayez ces prompts

Évaluation initiale d'incident

Nous avons un incident de production. Le service [service name] rencontre [symptoms]. Aidez-moi à évaluer la gravité, établir le commandement d'incident et identifier les étapes immédiates de stabilisation.

Investigation et triage

Nous avons un incident [P1/P2] affectant [service]. L'investigation initiale montre [observed symptoms]. Guidez-moi à travers une investigation basée sur l'observabilité pour identifier la cause racine.

Communication aux parties prenantes

Nous sommes au milieu d'un incident [P0/P1]. J'ai besoin de rédiger des mises à jour pour [executives/customers/support team]. Que dois-je communiquer et à quelle fréquence ?

Facilitation de post-mortem

Aidez-moi à mener un post-mortem sans blâme pour un incident où [brief description]. Guidez-moi pour créer la timeline, l'analyse des causes racines et identifier les action items.

Bonnes pratiques

Établir la structure de commandement d'incident immédiatement - un ownership flou retarde la résolution
Communiquer de manière proactive et fréquente - les parties prenantes préfèrent les mises à jour au silence
Se concentrer d'abord sur la restauration du service, l'analyse des causes racines ensuite pendant les incidents actifs
Tout documenter en temps réel - les timelines et décisions sont plus difficiles à reconstituer plus tard

Éviter

Blâmer des individus dans les post-mortems - se concentrer sur les systèmes et processus à la place
Sauter le commandement d'incident pour un 'tout le monde répond' - cause un chaos de coordination
Retarder la communication pour avoir des informations complètes - les parties prenantes ont besoin de mises à jour en temps opportun
Implémenter des fixes complexes pendant les incidents actifs - préférer les fixes minimaux viables

Foire aux questions

À quelle rapidité dois-je répondre à un incident P0 ?

Les incidents P0 (critique) nécessitent un accusé de réception dans les 15 minutes et une résolution dans l'heure. L'escalade immédiate et l'établissement du commandement d'incident sont critiques.

Quelle est la différence entre incident commander et technical lead ?

L'Incident Commander prend les décisions, coordonne la réponse, gère la communication. Le Technical Lead enquête sur la cause racine technique et implémente les fixes. Des rôles séparés préviennent la surcharge cognitive.

À quelle fréquence dois-je envoyer des mises à jour d'incident ?

Pour les incidents actifs : toutes les 15 minutes pour P0/P1, toutes les heures pour P2. Les mises à jour doivent inclure le statut actuel, les actions entreprises, les prochaines étapes et l'ETA si connu.

Quand dois-je déclarer un incident résolu ?

Déclarer la résolution quand tous les SLIs retournent aux seuils normaux, que l'expérience utilisateur est validée et que la marge de capacité est confirmée. Continuer le monitoring renforcé pendant 24 heures post-résolution.

Comment mener un post-mortem sans blâme ?

Se concentrer sur ce qui s'est produit et pourquoi, pas sur qui a fait des erreurs. Utiliser des techniques comme five whys ou les diagrammes en arête de poisson. Identifier les facteurs systémiques, pas les erreurs humaines. Partager les apprentissages ouvertement.

Ce skill peut-il exécuter des commandes de remédiation réelles ?

Non. Ce skill fournit des conseils et recommandations uniquement. Il ne peut pas accéder à vos systèmes, exécuter des commandes ou prendre des décisions. Toujours vérifier les conseils par rapport à votre environnement spécifique.

Détails du développeur

Auteur

sickn33

Licence

MIT

Dépôt

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/incident-responder

Réf

main

Structure de fichiers

📄 SKILL.md