Habilidades incident-runbook-templates

📋

incident-runbook-templates

Name: incident-runbook-templates
Author: sickn33

Seguro

Crear runbooks de respuesta a incidentes

También disponible en: wshobson

Construye rápidamente runbooks de respuesta a incidentes completos con plantillas probadas. Reduce el tiempo de resolución de incidentes al proporcionar procedimientos paso a paso para detección, triaje, mitigación y comunicación.

Soporta: Claude Codex Code(CC)

🥉 72 Bronce

Descargar el ZIP de la skill

Subir en Claude

Ve a Configuración → Capacidades → Skills → Subir skill

Activa y empieza a usar

Pruébalo

Usando "incident-runbook-templates". Crear un runbook para alta latencia del API gateway

Resultado esperado:

Se generó un runbook completo de latencia de API Gateway con pasos de detección (verificar latencia p99, tasas de error, salud de servicios upstream), procedimientos de triaje (identificar cuellos de botella, verificar latencia de dependencias), acciones de mitigación (habilitar caching, aumentar timeouts, escalar servicios upstream) y pasos de verificación para confirmar que la latencia ha vuelto a la línea base.

Usando "incident-runbook-templates". Crear un runbook de agotamiento de pool de conexiones de base de datos para PostgreSQL

Resultado esperado:

Se generó un runbook de pool de conexiones de PostgreSQL con consultas SQL para identificar conexiones de larga duración, pasos para terminar conexiones inactivas, recomendaciones de ajuste de configuración (max_connections, tamaño del pool) y estrategias de prevención incluyendo mejores prácticas de pool de conexiones y alertas de monitoreo.

Usando "incident-runbook-templates". Crear plantillas de comunicación para una interrupción de procesamiento de pagos

Resultado esperado:

Se generaron tres plantillas de comunicación: (1) Notificación interna inicial con clasificación de severidad, evaluación de impacto y asignación de comandante del incidente, (2) Plantilla de actualización de estado con progreso de mitigación y ETA, (3) Mensaje orientado al cliente con descripción transparente del impacto, tiempo estimado de resolución y disculpa con oferta de compensación si aplica.

Auditoría de seguridad

Seguro

v1 • 2/25/2026

All 62 static findings are false positives from Markdown documentation. The skill contains only template documentation with code examples (bash, kubectl, SQL) in fenced code blocks. No executable code, no prompt injection attempts, and no security risks detected. Safe to publish.

Archivos escaneados

398

Líneas analizadas

hallazgos

Auditorías totales

No se encontraron problemas de seguridad

Auditado por: claude

Puntuación de calidad

Arquitectura

100

Mantenibilidad

Contenido

Comunidad

100

Seguridad

100

Cumplimiento de la especificación

Lo que puedes crear

Ingeniero de guardia respondiendo a incidente SEV1

Un ingeniero de guardia recibe una alerta de PagerDuty a las 3 AM por una interrupción completa del servicio. Usa esta habilidad para acceder rápidamente a la plantilla del runbook de interrupción del servicio, que lo guía a través de verificar el estado de los pods, revisar despliegues recientes y ejecutar una reversión si es necesario.

Equipo SRE construyendo biblioteca de documentación

Un equipo SRE está estableciendo su proceso de gestión de incidentes. Usa esta habilidad para generar runbooks estandarizados para diferentes servicios (procesamiento de pagos, base de datos, gateway de API) asegurando procedimientos de respuesta consistentes en toda la organización.

Startup estableciendo proceso de respuesta a incidentes

Una startup en crecimiento necesita documentar sus procedimientos de respuesta a incidentes a medida que escala. Usa esta habilidad para crear su primer conjunto de runbooks, definir niveles de severidad y construir plantillas de comunicación para actualizaciones de partes interesadas durante incidentes.

Prueba estos prompts

Generar runbook de interrupción de servicio

Crear un runbook para una interrupción del servicio Redis cache. Incluir pasos para verificar el estado de los pods, uso de memoria y cantidad de conexiones. Agregar procedimientos de reversión.

Crear runbook de incidente de base de datos

Generar un runbook de base de datos para retardo de replicación de MySQL. Incluir consultas para verificar el retardo, identificar consultas lentas y pasos para promover una replica si es necesario.

Crear matriz de escalamiento

Diseñar una matriz de escalamiento para una plataforma de comercio electrónico. Incluir condiciones para incidentes SEV1-SEV4 con contactos apropiados para equipos de ingeniería, legal, finanzas y ejecutivo.

Generar plantillas de comunicación

Crear plantillas de comunicación orientadas al cliente para un incidente de privacidad de datos. Incluir mensaje inicial de notificación, actualización y resolución que satisfagan requisitos legales.

Mejores prácticas

Personaliza las plantillas con tus nombres reales de servicios, canales de Slack, horarios de PagerDuty y URLs de dashboards antes de usar en producción
Prueba los procedimientos de runbook durante juegos de guerra o ejercicios de ingeniería de caos para validar precisión y completitud
Actualiza los runbooks después de cada incidente basándote en lecciones aprendidas y nuevos conocimientos de post-mortems
Incluye pasos de verificación después de cada acción de mitigación para confirmar que la solución funcionó antes de pasar al siguiente paso
Vincula a dashboards reales (Grafana, Sentry) y runbooks en tus herramientas de respuesta a incidentes para acceso rápido durante emergencias

Evitar

No copies plantillas sin personalizar los marcadores de posición (nombres de servicios, comandos, contactos) para que coincidan con tu entorno
No omitas los pasos de verificación - siempre confirma que una acción de mitigación funcionó antes de proceder
No trabajes de forma aislada durante incidentes - usa la matriz de escalamiento para involucrar a los equipos apropiados temprano
No trates los runbooks como documentos estáticos - revísalos y actualízalos trimestralmente o después de cambios importantes de infraestructura
No asumas que el contexto se preserva durante incidentes - escribe pasos lo suficientemente claros para un ingeniero privado a las 3 AM

Preguntas frecuentes

¿Puedo modificar estas plantillas para mi infraestructura específica?

Sí, estas plantillas están diseñadas para ser personalizadas. Reemplaza los nombres de servicios de marcador de posición, comandos, URLs e información de contacto con los detalles de tu infraestructura real.

¿Estos runbooks funcionan con cualquier proveedor de nube?

Sí, las plantillas son agnósticos a la nube pero principalmente muestran ejemplos de Kubernetes. Adapta los comandos para herramientas específicas de AWS, GCP o Azure según sea necesario.

¿Con qué frecuencia debo actualizar mis runbooks?

Actualiza los runbooks después de cada incidente para capturar lecciones aprendidas, y revisa todos los runbooks trimestralmente para asegurar que reflejen tu infraestructura actual.

¿Puedo usar estos para incidentes de no producción?

Sí, adapta los niveles de severidad y tiempos de respuesta para tu entorno. Para staging, considera usar clasificaciones SEV3-SEV4 y tiempos de respuesta más largos.

¿Necesito ser un experto en Kubernetes para usar estas plantillas?

El conocimiento básico de Kubernetes es útil para las plantillas de interrupción de servicios, pero los conceptos aplican a cualquier infraestructura. Adapta los comandos para tu plataforma de despliegue.

¿Cómo integro estas con mis herramientas de monitoreo?

Reemplaza las URLs de ejemplo de dashboards (Grafana, Sentry) y ejemplos de alertas con las URLs de tus herramientas de monitoreo reales y configuraciones de alertas.

Detalles del desarrollador

Autor

sickn33

Licencia

MIT

Repositorio

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/incident-runbook-templates

Ref.

main

Estructura de archivos

📄 SKILL.md