下载技能 ZIP
在 Claude 中上传
前往 设置 → 功能 → 技能 → 上传技能
开启并开始使用
测试它
正在使用“incident-runbook-templates”。 创建一个API网关高延迟的手册
预期结果:
生成了一个全面的API网关延迟手册,包含检测步骤(检查延迟p99、错误率、上游服务健康状况)、分类程序(识别瓶颈、检查依赖项延迟)、缓解操作(启用缓存、增加超时、扩展上游服务)和确认延迟已恢复到基线的验证步骤。
正在使用“incident-runbook-templates”。 为PostgreSQL构建数据库连接池耗尽手册
预期结果:
生成了一个PostgreSQL连接池手册,包含用于识别长时间运行的连接的SQL查询、终止空闲连接的步骤、配置调优建议(max_connections、pool大小),以及包括连接池最佳实践和监控警报的预防策略。
正在使用“incident-runbook-templates”。 为支付处理中断创建沟通模板
预期结果:
生成了三个沟通模板:(1)初始内部通知,包含严重性分类、影响评估和事件指挥官分配;(2)状态更新模板,包含缓解进展和预计完成时间;(3)面向客户的消息,包含透明的影响描述、预计解决时间和道歉(如适用,提供补偿)。
安全审计
安全All 62 static findings are false positives from Markdown documentation. The skill contains only template documentation with code examples (bash, kubectl, SQL) in fenced code blocks. No executable code, no prompt injection attempts, and no security risks detected. Safe to publish.
质量评分
你能构建什么
值班工程师响应SEV1事件
值班工程师在凌晨3点收到PagerDuty警报,服务完全中断。他们使用此技能快速访问服务中断手册模板,指导他们检查Pod状态、查看最近的部署,并在需要时执行回滚。
SRE��队构建文档库
SRE团队正在建立其事件管理流程。他们使用此技能为不同服务(支付处理、数据库、API网关)生成标准化手册,确保整个组织的响应流程一致。
初创公司建立事件响应流程
一家快速发展的初创公司需要在扩展过程中记录其事件响应流程。他们使用此技能创建第一套手册,定义严重性级别,并构建利益相关者在事件期间的更新沟通模板。
试试这些提示
创建一个Redis缓存服务中断的手册。包含检查Pod状态、内存使用情况和连接计数的步骤。添加回滚程序。
生成一个MySQL复制延迟的数据库手册。包含检查延迟的查询、识别慢查询的查询,以及在需要时提升副本的步骤。
为电子商务平台设计一个升级矩阵。包含SEV1-SEV4事件的条件,以及工程、法务、财务和高管团队的适当联系人。
为数据隐私事件创建面向客户的沟通模板。包含满足法律要求的初始通知、更新和解决消息。
最佳实践
- 在生产环境中使用之前,请使用实际的服务名称、Slack频道、PagerDuty时间表���仪表板URL定制模板
- 在游戏日或混沌工程练习期间测试手册程序,以验证准确性和完整性
- 根据每次事件的经验教训和事后分析的新见解更新手册
- 在每个缓解操作后包含验证步骤,以确认修复有效后再进行下一步
- 链接到实际的仪表板(Grafana、Sentry)和事件响应工具中的手册,以便在紧急情况下快速访问
避免
- 不要复制模板而不定制占位符(服务名称、命令、联系人)以匹配您的环境
- 不要跳过验证步骤 - 在继续之前始终确认缓解操作有效
- 不要在事件期间孤立工作 - 使用升级矩阵尽早让适当的团队参与
- 不要将手册视为静态文档 - 每季度或在重大基础设施变更后审查和更新它们
- 不要假设上下文在事件期间得以保留 - 编写足够清晰的步骤,以便凌晨3点疲惫的工程师也能理解
常见问题
我可以为我的特定基础设施修改这些模板吗?
这些手册适用于任何云提供商吗?
我应该多久更新一次手册?
我可以将这些用于非生产事件吗?
我需要成为Kubernetes专家才能使用这些模板吗?
如何将这些与我的监控工具集成?
开发者详情
作者
sickn33许可证
MIT
仓库
https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/incident-runbook-templates引用
main
文件结构
📄 SKILL.md