incident-response-incident-response
Orchestrer les flux de réponse aux incidents
Cette compétence fournit un flux de réponse aux incidents structuré en plusieurs phases pour les agents IA, permettant une détection rapide, une investigation, une résolution et une documentation postmortem suivant les principes SRE modernes.
Télécharger le ZIP du skill
Importer dans Claude
Allez dans Paramètres → Capacités → Skills → Importer un skill
Activez et commencez à utiliser
Tester
Utilisation de "incident-response-incident-response". Utiliser la compétence incident-response pour trier : Service API retournant des erreurs 500 pour 30% des requêtes
Résultat attendu:
Sévérité : P1/SEV-2 (Dégradation majeure)
Services affectés : API Gateway, User Service
Impact utilisateur : 30% de requêtes échouées, principalement utilisateurs authentifiés
Atténuation initiale :
1. Activer le circuit breaker pour User Service
2. Vérifier les déploiements récents pour un rollback
3. Augmenter la capacité de l'API Gateway
Incident Commander : [Assigner]
Technical Lead : [Assigner]
Communications Lead : [Assigner]
Utilisation de "incident-response-incident-response". Utiliser la compétence incident-response pour créer un postmortem pour la panne de base de données d'hier
Résultat attendu:
## Postmortem sans blame - Panne de base de données
### Chronologie
- 14:00 - Alerte déclenchée : CPU base de données à 99%
- 14:05 - Incident déclaré P1
- 14:15 - Rollback tenté
- 14:30 - Cause profonde : Épuisement du pool de connexions
- 14:45 - Correctif déployé
- 15:00 - Incident résolu
### Cause profonde
Le script de migration a créé 10x le nombre normal de connexions
### Ce qui s'est bien passé
- Détection rapide (2 min)
- Communication claire
### Éléments d'action
1. Ajouter la surveillance du pool de connexions - Responsable : Jane - Échéance : 28 fév
2. Mettre à jour le runbook pour les migrations - Responsable : Bob - Échéance : 1er mars
Audit de sécurité
SûrAll 11 static findings are false positives. The skill is a legitimate incident response workflow guide (markdown documentation). The 'external_commands' detection refers to markdown backticks for file paths, not shell execution. The 'weak cryptographic algorithm' and 'system/network reconnaissance' detections are scanner misinterpretations of incident response terminology (severity levels, observability analysis, root cause analysis). No actual security risks present.
Problèmes à risque élevé (3)
Score de qualité
Ce que vous pouvez construire
Responsable SRE gérant une panne en production
Utiliser le flux complet pour coordonner la réponse de l'équipe, maintenir une structure de commandement d'incident et assurer une communication appropriée pendant un incident sev-1.
Ingénieur DevOps menant une revue post-incident
Utiliser la Phase 5 (Postmortem et Prévention) pour documenter la chronologie de l'incident, identifier les causes profondes et créer des éléments d'action pour les améliorations de surveillance.
Ingénieur en astreinte effectuant le triage initial
Utiliser la Phase 1 (Détection et Triage) pour classifier rapidement la sévérité de l'incident, évaluer l'impact et déterminer les premières étapes d'atténuation.
Essayez ces prompts
Utiliser la compétence incident-response pour trier cette alerte : [DÉCRIRE L'ALERTE]. Déterminer le niveau de sévérité (P0-P3), identifier les services affectés, évaluer l'impact utilisateur et recommander les premières actions d'atténuation.
Utiliser la compétence incident-response pour investiguer cet incident : [DESCRIPTION DE L'INCIDENT]. Effectuer un débogage approfondi, une évaluation de sécurité et une analyse des performances pour identifier la cause profonde.
Utiliser la compétence incident-response pour coordonner ce correctif d'urgence : [DESCRIPTION DE L'INCIDENT ET DU CORRECTIF]. Exécuter le déploiement avec validation, surveillance et préparation au rollback.
Utiliser la compétence incident-response pour mener un postmortem sans blame pour : [RÉSUMÉ DE L'INCIDENT]. Documenter la chronologie, la cause profonde, ce qui s'est bien passé, ce qui pourrait être amélioré et créer des éléments d'action.
Bonnes pratiques
- Assigner un incident commander et des rôles clairs dans les 5 premières minutes de tout incident P0/P1
- Mettre à jour la communication aux parties prenantes toutes les 15-30 minutes pendant les incidents actifs
- Compléter le postmortem sans blame dans les 48 heures avec des éléments d'action spécifiques et assignables
Éviter
- Sauter la classification de sévérité et passer directement au débogage sans comprendre l'impact
- Blâmer des individus dans les postmortems plutôt que de se concentrer sur les améliorations système
- Retarder la communication aux parties prenantes jusqu'à ce que la résolution complète soit atteinte