技能 incident-response-incident-response
🚨

incident-response-incident-response

安全

协调事件响应工作流

该技能为AI代理提供结构化的多阶段事件响应工作流,实现基于现代SRE原则的快速检测、调查、解决和事后分析文档编写。

支持: Claude Codex Code(CC)
📊 69 充足
1

下载技能 ZIP

2

在 Claude 中上传

前往 设置 → 功能 → 技能 → 上传技能

3

开启并开始使用

测试它

正在使用“incident-response-incident-response”。 Use incident-response skill to triage: API service returning 500 errors for 30% of requests

预期结果:

严重程度:P1/SEV-2(重大降级)

受影响服务:API网关、用户服务
用户影响:30%请求失败,主要影响已认证用户

初步缓解措施:
1. 为用户服务启用断路器
2. 检查最近部署以进行回滚
3. 扩展API网关容量

事件指挥官:[指定]
技术负责人:[指定]
沟通负责人:[指定]

正在使用“incident-response-incident-response”。 Use incident-response skill to create postmortem for yesterday's database outage

预期结果:

## 无责事后分析 - 数据库故障

### 时间线
- 14:00 - 告警触发:数据库CPU达99%
- 14:05 - 事件定为P1
- 14:15 - 尝试回滚
- 14:30 - 根本原因:连接池耗尽
- 14:45 - 修复已部署
- 15:00 - 事件已解决

### 根本原因
迁移脚本创建了正常10倍的连接

### 做得好的地方
- 快速检测(2分钟)
- 沟通清晰

### 行动项
1. 添加连接池监控 - 负责人:Jane - 截止日期:2月28日
2. 更新迁移运行手册 - 负责人:Bob - 截止日期:3月1日

安全审计

安全
v1 • 2/25/2026

All 11 static findings are false positives. The skill is a legitimate incident response workflow guide (markdown documentation). The 'external_commands' detection refers to markdown backticks for file paths, not shell execution. The 'weak cryptographic algorithm' and 'system/network reconnaissance' detections are scanner misinterpretations of incident response terminology (severity levels, observability analysis, root cause analysis). No actual security risks present.

1
已扫描文件
171
分析行数
3
发现项
1
审计总数

高风险问题 (3)

External Commands Detection (False Positive)
Scanner detected 'Ruby/shell backtick execution' at SKILL.md:23 - this is markdown formatting (backticks around file path 'resources/implementation-playbook.md'), not shell execution.
Weak Cryptographic Algorithm Detection (False Positive)
Scanner detected 'weak cryptographic algorithm' at multiple lines - these are false positives. The skill contains no cryptographic code.
System/Network Reconnaissance Detection (False Positive)
Scanner detected 'system/network reconnaissance' at multiple lines - these are false positives. The terms refer to legitimate incident response activities (severity classification, observability analysis, root cause analysis).
审计者: claude

质量评分

38
架构
100
可维护性
87
内容
50
社区
75
安全
91
规范符合性

你能构建什么

SRE团队负责人管理生产故障

使用完整工作流协调团队响应、维持事件指挥结构,并在sev-1事件期间确保 proper communication。

DevOps工程师进行事件后复盘

使用第5阶段(事后分析与预防)记录事件时间线、识别根本原因,并创建监控改进的行动项。

值班工程师进行初步分诊

使用第1阶段(检测与分诊)快速分类事件严重程度、评估影响,并确定初步缓解措施。

试试这些提示

初始事件分诊
使用incident-response技能对此告警进行分诊:[DESCRIBE ALERT]。确定严重程度(P0-P3)、识别受影响服务、评估用户影响,并推荐初步缓解措施。
深度调查请求
使用incident-response技能调查此事件:[INCIDENT DESCRIPTION]。进行深度调试、安全评估和性能分析以识别根本原因。
紧急部署协调
使用incident-response技能协调此紧急修复:[INCIDENT AND FIX DESCRIPTION]。执行带验证、监控和回滚准备的部署。
事后分析生成
使用incident-response技能为以下事件进行无责事后分析:[INCIDENT SUMMARY]。记录时间线、根本原因、做得好的地方、可以改进的地方,并创建行动项。

最佳实践

  • 在任何P0/P1事件的最初5分钟内指定明确的事件指挥官和角色
  • 在活跃事件期间每15-30分钟向利益相关者更新一次沟通
  • 在48小时内完成无责事后分析,并包含具体的、可分配的行动项

避免

  • 跳过严重程度分类直接进入调试,不了解影响范围
  • 在事后分析中责备个人而非关注系统改进
  • 延迟与利益相关者的沟通直到完全解决

常见问题

该技能是否执行实际的事件响应操作?
不。该技能提供工作流指导并编排其他专业技能,不直接访问监控系统、执行部署或修改基础设施。
该技能能否替代我的事件管理平台?
不。该技能设计用于与PagerDuty、Opsgenie和状态页等现有工具配合工作。它提供工作流逻辑,但依赖外部系统进行告警和沟通。
该技能支持哪些严重程度级别?
该技能支持P0(SEV-1)到P3(SEV-4)严重程度级别。P0/P1需要立即全员响应,而P2/P3遵循标准响应程序。
该技能如何处理安全事件?
第2阶段包含安全评估步骤,检查DDoS指标、认证失败、数据泄露风险和可疑访问模式。
初级工程师能否有效使用该技能?
可以。结构化工作流指导经验较少的团队成员完成事件响应阶段,为每个步骤提供明确的提示和预期输出。
该技能与一般调试指南有何不同?
该技能提供全面的事件指挥系统(ICS)和多代理编排,专注于协调、沟通和预防,而不仅仅是技术故障排除。