技能 incident-runbook-templates
📋

incident-runbook-templates

安全

创建事件响应手册

也可从以下获取: wshobson

使用经过验证的模板快速构建全面的事件响应手册。通过提供检测、分类、缓解和沟通的分步流程,缩短事件解决时间。

支持: Claude Codex Code(CC)
🥉 75 青铜
1

下载技能 ZIP

2

在 Claude 中上传

前往 设置 → 功能 → 技能 → 上传技能

3

开启并开始使用

测试它

正在使用“incident-runbook-templates”。 创建一个API网关高延迟的手册

预期结果:

生成了一个全面的API网关延迟手册,包含检测步骤(检查延迟p99、错误率、上游服务健康状况)、分类程序(识别瓶颈、检查依赖项延迟)、缓解操作(启用缓存、增加超时、扩展上游服务)和确认延迟已恢复到基线的验证步骤。

正在使用“incident-runbook-templates”。 为PostgreSQL构建数据库连接池耗尽手册

预期结果:

生成了一个PostgreSQL连接池手册,包含用于识别长时间运行的连接的SQL查询、终止空闲连接的步骤、配置调优建议(max_connections、pool大小),以及包括连接池最佳实践和监控警报的预防策略。

正在使用“incident-runbook-templates”。 为支付处理中断创建沟通模板

预期结果:

生成了三个沟通模板:(1)初始内部通知,包含严重性分类、影响评估和事件指挥官分配;(2)状态更新模板,包含缓解进展和预计完成时间;(3)面向客户的消息,包含透明的影响描述、预计解决时间和道歉(如适用,提供补偿)。

安全审计

安全
v1 • 2/25/2026

All 62 static findings are false positives from Markdown documentation. The skill contains only template documentation with code examples (bash, kubectl, SQL) in fenced code blocks. No executable code, no prompt injection attempts, and no security risks detected. Safe to publish.

1
已扫描文件
398
分析行数
0
发现项
1
审计总数
未发现安全问题
审计者: claude

质量评分

38
架构
100
可维护性
87
内容
50
社区
100
安全
100
规范符合性

你能构建什么

值班工程师响应SEV1事件

值班工程师在凌晨3点收到PagerDuty警报,服务完全中断。他们使用此技能快速访问服务中断手册模板,指导他们检查Pod状态、查看最近的部署,并在需要时执行回滚。

SRE��队构建文档库

SRE团队正在建立其事件管理流程。他们使用此技能为不同服务(支付处理、数据库、API网关)生成标准化手册,确保整个组织的响应流程一致。

初创公司建立事件响应流程

一家快速发展的初创公司需要在扩展过程中记录其事件响应流程。他们使用此技能创建第一套手册,定义严重性级别,并构建利益相关者在事件期间的更新沟通模板。

试试这些提示

生成服务中断手册
创建一个Redis缓存服务中断的手册。包含检查Pod状态、内存使用情况和连接计数的步骤。添加回滚程序。
构建数据库事件手册
生成一个MySQL复制延迟的数据库手册。包含检查延迟的查询、识别慢查询的查询,以及在需要时提升副本的步骤。
创建升级矩阵
为电子商务平台设计一个升级矩阵。包含SEV1-SEV4事件的条件,以及工程、法务、财务和高管团队的适当联系人。
生成沟通模板
为数据隐私事件创建面向客户的沟通模板。包含满足法律要求的初始通知、更新和解决消息。

最佳实践

  • 在生产环境中使用之前,请使用实际的服务名称、Slack频道、PagerDuty时间表���仪表板URL定制模板
  • 在游戏日或混沌工程练习期间测试手册程序,以验证准确性和完整性
  • 根据每次事件的经验教训和事后分析的新见解更新手册
  • 在每个缓解操作后包含验证步骤,以确认修复有效后再进行下一步
  • 链接到实际的仪表板(Grafana、Sentry)和事件响应工具中的手册,以便在紧急情况下快速访问

避免

  • 不要复制模板而不定制占位符(服务名称、命令、联系人)以匹配您的环境
  • 不要跳过验证步骤 - 在继续之前始终确认缓解操作有效
  • 不要在事件期间孤立工作 - 使用升级矩阵尽早让适当的团队参与
  • 不要将手册视为静态文档 - 每季度或在重大基础设施变更后审查和更新它们
  • 不要假设上下文在事件期间得以保留 - 编写足够清晰的步骤,以便凌晨3点疲惫的工程师也能理解

常见问题

我可以为我的特定基础设施修改这些模板吗?
是的,这些模板可以定制。将占位符服务名称、命令、URL和联系信息替换为实际的基础设施详细信息。
这些手册适用于任何云提供商吗?
是的,这些模板是云中立的,但主要显示Kubernetes示例。根据需要调整AWS、GCP或Azure特定工具的命令。
我应该多久更新一次手册?
在每次事件后更新手册以汲取经验教训,并每季度审查所有手册以确保它们反映您当前的基础设施。
我可以将这些用于非生产事件吗?
是的,根据您的环境调整严重性级别和响应时间。对于暂存环境,考虑使用SEV3-SEV4分类和更长的响应时间。
我需要成为Kubernetes专家才能使用这些模板吗?
对于服务中断模板,具备Kubernetes基础知识很有帮助,但这些概念适用于任何基础设施。根据您的部署平台调整命令。
如何将这些与我的监控工具集成?
将示例仪表板URL(Grafana、Sentry)和警报示例替换为实际的监控工具URL和警报配置。

开发者详情

文件结构

📄 SKILL.md