incident-response-incident-response
Orquestar Flujos de Trabajo de Respuesta a Incidentes
Esta habilidad proporciona un flujo de trabajo estructurado de respuesta a incidentes en múltiples fases para agentes de IA, permitiendo una detección rápida, investigación, resolución y documentación post-mortem siguiendo principios modernos de SRE.
Descargar el ZIP de la skill
Subir en Claude
Ve a Configuración → Capacidades → Skills → Subir skill
Activa y empieza a usar
Pruébalo
Usando "incident-response-incident-response". Usar incident-response skill para hacer triaje: servicio API retornando errores 500 para el 30% de las solicitudes
Resultado esperado:
Severidad: P1/SEV-2 (Degradación mayor)
Servicios Afectados: API Gateway, Servicio de Usuario
Impacto en Usuario: 30% de solicitudes fallidas, principalmente usuarios autenticados
Mitigación Inicial:
1. Habilitar circuit breaker para el Servicio de Usuario
2. Verificar despliegues recientes para hacer rollback
3. Escalar capacidad del API Gateway
Comandante de Incidente: [Asignar]
Líder Técnico: [Asignar]
Líder de Comunicaciones: [Asignar]
Usando "incident-response-incident-response". Usar incident-response skill para crear postmortem de la interrupción de base de datos de ayer
Resultado esperado:
## Postmortem sin Culpas - Interrupción de Base de Datos
### Línea de Tiempo
- 14:00 - Alerta disparada: CPU de Base de Datos al 99%
- 14:05 - Incidente declarado P1
- 14:15 - Intento de rollback
- 14:30 - Causa raíz: Agotamiento del pool de conexiones
- 14:45 - Corrección desplegada
- 15:00 - Incidente resuelto
### Causa Raíz
El script de migración creó 10x conexiones normales
### Qué Salió Bien
- Detección rápida (2 min)
- Comunicación clara
### Elementos de Acción
1. Agregar monitoreo de pool de conexiones - Owner: Jane - Due: Feb 28
2. Actualizar runbook para migraciones - Owner: Bob - Due: Mar 1
Auditoría de seguridad
SeguroAll 11 static findings are false positives. The skill is a legitimate incident response workflow guide (markdown documentation). The 'external_commands' detection refers to markdown backticks for file paths, not shell execution. The 'weak cryptographic algorithm' and 'system/network reconnaissance' detections are scanner misinterpretations of incident response terminology (severity levels, observability analysis, root cause analysis). No actual security risks present.
Problemas de riesgo alto (3)
Puntuación de calidad
Lo que puedes crear
Líder de equipo SRE gestionando interrupción de producción
Usar el flujo de trabajo completo para coordinar la respuesta del equipo, mantener la estructura de comando de incidentes y asegurar la comunicación adecuada durante un incidente sev-1.
Ingeniero DevOps realizando revisión post-incidente
Usar la Fase 5 (Postmortem y Prevención) para documentar la línea de tiempo del incidente, identificar las causas raíz y crear elementos de acción para mejoras de monitoreo.
Ingeniero de guardia realizando triaje inicial
Usar la Fase 1 (Detección y Triaje) para clasificar rápidamente la severidad del incidente, evaluar el impacto y determinar los pasos iniciales de mitigación.
Prueba estos prompts
Usar la habilidad incident-response para hacer triaje de esta alerta: [DESCRIBE ALERT]. Determinar el nivel de severidad (P0-P3), identificar los servicios afectados, evaluar el impacto del usuario y recomendar acciones iniciales de mitigación.
Usar la habilidad incident-response para investigar este incidente: [INCIDENT DESCRIPTION]. Realizar depuración profunda, evaluación de seguridad y análisis de rendimiento para identificar la causa raíz.
Usar la habilidad incident-response para coordinar esta corrección de emergencia: [INCIDENT AND FIX DESCRIPTION]. Ejecutar despliegue con validación, monitoreo y preparación para rollback.
Usar la habilidad incident-response para realizar un postmortem sin culpas para: [INCIDENT SUMMARY]. Documentar línea de tiempo, causa raíz, qué salió bien, qué podría mejorar y crear elementos de acción.
Mejores prácticas
- Asignar comandante de incidentes claro y roles dentro de los primeros 5 minutos de cualquier incidente P0/P1
- Actualizar comunicación con partes interesadas cada 15-30 minutos durante incidentes activos
- Completar postmortem sin culpas dentro de 48 horas con elementos de acción específicos y asignables
Evitar
- Saltar la clasificación de severidad y lanzarse directamente a depurar sin entender el impacto
- Culpar a individuos en postmortems en lugar de enfocarse en mejoras del sistema
- Retrasar la comunicación con partes interesadas hasta lograr la resolución completa
Preguntas frecuentes
¿Esta habilidad ejecuta acciones reales de respuesta a incidentes?
¿Puede esta habilidad reemplazar mi plataforma de gestión de incidentes?
¿Qué niveles de severidad soporta esta habilidad?
¿Cómo maneja esta habilidad los incidentes de seguridad?
¿Pueden ingenieros junior usar esta habilidad efectivamente?
¿Qué hace diferente esta habilidad de las guías generales de depuración?
Detalles del desarrollador
Autor
sickn33Licencia
MIT
Repositorio
https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/incident-response-incident-responseRef.
main
Estructura de archivos
📄 SKILL.md