Construye rápidamente runbooks de respuesta a incidentes completos con plantillas probadas. Reduce el tiempo de resolución de incidentes al proporcionar procedimientos paso a paso para detección, triaje, mitigación y comunicación.
下载技能 ZIP
在 Claude 中上传
前往 设置 → 功能 → 技能 → 上传技能
开启并开始使用
测试它
正在使用“incident-runbook-templates”。 Crear un runbook para alta latencia del API gateway
预期结果:
Se generó un runbook completo de latencia de API Gateway con pasos de detección (verificar latencia p99, tasas de error, salud de servicios upstream), procedimientos de triaje (identificar cuellos de botella, verificar latencia de dependencias), acciones de mitigación (habilitar caching, aumentar timeouts, escalar servicios upstream) y pasos de verificación para confirmar que la latencia ha vuelto a la línea base.
正在使用“incident-runbook-templates”。 Crear un runbook de agotamiento de pool de conexiones de base de datos para PostgreSQL
预期结果:
Se generó un runbook de pool de conexiones de PostgreSQL con consultas SQL para identificar conexiones de larga duración, pasos para terminar conexiones inactivas, recomendaciones de ajuste de configuración (max_connections, tamaño del pool) y estrategias de prevención incluyendo mejores prácticas de pool de conexiones y alertas de monitoreo.
正在使用“incident-runbook-templates”。 Crear plantillas de comunicación para una interrupción de procesamiento de pagos
预期结果:
Se generaron tres plantillas de comunicación: (1) Notificación interna inicial con clasificación de severidad, evaluación de impacto y asignación de comandante del incidente, (2) Plantilla de actualización de estado con progreso de mitigación y ETA, (3) Mensaje orientado al cliente con descripción transparente del impacto, tiempo estimado de resolución y disculpa con oferta de compensación si aplica.
安全审计
安全All 62 static findings are false positives from Markdown documentation. The skill contains only template documentation with code examples (bash, kubectl, SQL) in fenced code blocks. No executable code, no prompt injection attempts, and no security risks detected. Safe to publish.
质量评分
你能构建什么
Ingeniero de guardia respondiendo a incidente SEV1
Un ingeniero de guardia recibe una alerta de PagerDuty a las 3 AM por una interrupción completa del servicio. Usa esta habilidad para acceder rápidamente a la plantilla del runbook de interrupción del servicio, que lo guía a través de verificar el estado de los pods, revisar despliegues recientes y ejecutar una reversión si es necesario.
Equipo SRE construyendo biblioteca de documentación
Un equipo SRE está estableciendo su proceso de gestión de incidentes. Usa esta habilidad para generar runbooks estandarizados para diferentes servicios (procesamiento de pagos, base de datos, gateway de API) asegurando procedimientos de respuesta consistentes en toda la organización.
Startup estableciendo proceso de respuesta a incidentes
Una startup en crecimiento necesita documentar sus procedimientos de respuesta a incidentes a medida que escala. Usa esta habilidad para crear su primer conjunto de runbooks, definir niveles de severidad y construir plantillas de comunicación para actualizaciones de partes interesadas durante incidentes.
试试这些提示
Crear un runbook para una interrupción del servicio Redis cache. Incluir pasos para verificar el estado de los pods, uso de memoria y cantidad de conexiones. Agregar procedimientos de reversión.
Generar un runbook de base de datos para retardo de replicación de MySQL. Incluir consultas para verificar el retardo, identificar consultas lentas y pasos para promover una replica si es necesario.
Diseñar una matriz de escalamiento para una plataforma de comercio electrónico. Incluir condiciones para incidentes SEV1-SEV4 con contactos apropiados para equipos de ingeniería, legal, finanzas y ejecutivo.
Crear plantillas de comunicación orientadas al cliente para un incidente de privacidad de datos. Incluir mensaje inicial de notificación, actualización y resolución que satisfagan requisitos legales.
最佳实践
- Personaliza las plantillas con tus nombres reales de servicios, canales de Slack, horarios de PagerDuty y URLs de dashboards antes de usar en producción
- Prueba los procedimientos de runbook durante juegos de guerra o ejercicios de ingeniería de caos para validar precisión y completitud
- Actualiza los runbooks después de cada incidente basándote en lecciones aprendidas y nuevos conocimientos de post-mortems
- Incluye pasos de verificación después de cada acción de mitigación para confirmar que la solución funcionó antes de pasar al siguiente paso
- Vincula a dashboards reales (Grafana, Sentry) y runbooks en tus herramientas de respuesta a incidentes para acceso rápido durante emergencias
避免
- No copies plantillas sin personalizar los marcadores de posición (nombres de servicios, comandos, contactos) para que coincidan con tu entorno
- No omitas los pasos de verificación - siempre confirma que una acción de mitigación funcionó antes de proceder
- No trabajes de forma aislada durante incidentes - usa la matriz de escalamiento para involucrar a los equipos apropiados temprano
- No trates los runbooks como documentos estáticos - revísalos y actualízalos trimestralmente o después de cambios importantes de infraestructura
- No asumas que el contexto se preserva durante incidentes - escribe pasos lo suficientemente claros para un ingeniero privado a las 3 AM
常见问题
¿Puedo modificar estas plantillas para mi infraestructura específica?
¿Estos runbooks funcionan con cualquier proveedor de nube?
¿Con qué frecuencia debo actualizar mis runbooks?
¿Puedo usar estos para incidentes de no producción?
¿Necesito ser un experto en Kubernetes para usar estas plantillas?
¿Cómo integro estas con mis herramientas de monitoreo?
开发者详情
作者
sickn33许可证
MIT
仓库
https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/incident-runbook-templates引用
main
文件结构
📄 SKILL.md