技能 incident-runbook-templates

📋

incident-runbook-templates

Name: incident-runbook-templates
Author: sickn33

安全

建立事件回應執行手冊

也可從以下取得: wshobson

快速建立包含實證模板的綜合事件回應執行手冊。透過提供偵測、分類、減輕和溝通的逐步程序，減少事件解決時間。

支援: Claude Codex Code(CC)

🥉 72 青銅

下載技能 ZIP

在 Claude 中上傳

前往設定 → 功能 → 技能 → 上傳技能

開啟並開始使用

測試它

正在使用「incident-runbook-templates」。建立 API 閘道器高延遲的執行手冊

預期結果:

生成了一個綜合的 API 閘道器延遲執行手冊，包含偵測步驟（檢查延遲 p99、錯誤率、上游服務健康狀態）、分類程序（識別瓶頸、檢查相依性延遲）、減輕動作（啟用快取、增加逾時、擴展上游服務），以及確認延遲已恢復基準的驗證步驟。

正在使用「incident-runbook-templates」。為 PostgreSQL 建立資料庫連線池耗盡執行手冊

預期結果:

生成了一個 PostgreSQL 連線池執行手冊，包含識別長時間執行連線的 SQL 查詢、終止閒置連線的步驟、組態調整建議（max_connections、pool size），以及包含連線池最佳實踐和監控警報的預防策略。

正在使用「incident-runbook-templates」。為付款處理中斷建立溝通模板

預期結果:

生成了三個溝通模板：(1) 包含嚴重性分類、影響評估和事件負責人指派的初始內部通知，(2) 包含減輕進度和預估時間的狀態更新模板，(3) 包含透明影響描述、預估解決時間和致歉與補償方案（如適用）的客戶訊息。

安全審計

安全

v1 • 2/25/2026

All 62 static findings are false positives from Markdown documentation. The skill contains only template documentation with code examples (bash, kubectl, SQL) in fenced code blocks. No executable code, no prompt injection attempts, and no security risks detected. Safe to publish.

已掃描檔案

398

分析行數

發現項

審計總數

未發現安全問題

審計者: claude

品質評分

架構

100

可維護性

內容

社群

100

安全

100

規範符合性

你能建構什麼

值班工程師回應 SEV1 事件

值班工程師在凌晨 3 點收到 PagerDuty 關於完全服務中斷的警報。他們使用此技能快速存取服務中斷執行手冊模板，該模板引導他們檢查 pod 狀態、檢視最近部署，並在需要時執行回滾。

SRE 團隊建立文件庫

SRE 團隊正在建立其事件管理流程。他們使用此技能為不同服務（付款處理、資料庫、API 閘道器）生成標準化執行手冊，確保整個組織的回應程序一致。

新創公司建立事件回應流程

一家成長中的新創公司需要在擴展時記錄其事件回應程序。他們使用此技能建立第一批執行手冊、定義嚴重性級別，並建立用於事故期間利害關係人更新的溝通模板。

試試這些提示

生成服務中斷執行手冊

建立一個 Redis 快取服務中斷的執行手冊。包含檢查 pod 狀態、記憶體使用量和連線數量的步驟。新增回滾程序。

建立資料庫事件執行手冊

生成一個 MySQL 複製延遲的資料庫執行手冊。包含檢查延遲、識別慢查詢的查詢，以及在需要時提升複本的步驟。

建立升級矩陣

設計一個電子商務平台的升級矩陣。包含 SEV1-SEV4 事件的條件，以及工程、法務、財務和高階管理團隊的適當聯絡人。

生成溝通模板

建立資料隱私事件的客戶溝通模板。包含符合法律要求的初始通知、更新和解決訊息。

最佳實務

在生產環境中使用前，使用您的實際服務名稱、Slack 頻道、PagerDuty 排程和儀表板 URL 客製化模板
在遊戲日或混沌工程演練期間測試執行手冊程序，以驗證準確性和完整性
每次事件後根據從事後檢討中獲得的經驗教訓和新見解更新執行手冊
在每個減輕動作後包含驗證步驟，在繼續下一步之前確認修復有效
連結到您的事件回應工具中的實際儀表板（Grafana、Sentry）和執行手冊，以便緊急時快速存取

避免

不要複製模板而未客製化佔位符（服務名稱、指令、聯絡人）以符合您的環境
不要跳過驗證步驟 - 始終確認減輕動作有效後再繼續
不要在事件期間孤立工作 - 使用升級矩陣儘早讓適當的團隊參與
不要將執行手冊視為靜態文件 - 每季或重大基礎設施變更後檢視並更新
不要假設事件期間會保留上下文 - 撰寫步驟時要讓凌晨 3 點睡眠不足的工程師也能清楚理解

常見問題

我可以為我的特定基礎設施修改這些模板嗎？

是的，這些模板設計為可客製化。請將佔位符服務名稱、指令、URL 和聯絡資訊替換為您的實際基礎設施詳細資訊。

這些執行手冊適用於任何雲端提供者嗎？

是的，模板為雲端無關，但主要顯示 Kubernetes 範例。請視需要調整 AWS、GCP 或 Azure 特定工具的指令。

我應該多久更新一次執行手冊？

每次事件後更新執行手冊以記錄經驗教訓，並每季檢視所有執行手冊以確保它們反映您目前的基礎設施。

我可以將這些用於非生產環境事件嗎？

是的，針對您的環境調整嚴重性級別和回應時間。對於 staging 環境，考慮使用 SEV3-SEV4 分類和較長的回應時間。

我需要使用 Kubernetes 專家才能使用這些模板嗎？

服務中斷模板需要基本的 Kubernetes 知識，但這些概念適用於任何基礎設施。請為您的部署平台調整指令。

我如何將這些與我的監控工具整合？

將範例儀表板 URL（Grafana、Sentry）和警報範例替換為您的實際監控工具 URL 和警報組態。

開發者詳情

作者

sickn33

授權

MIT

儲存庫

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/incident-runbook-templates

引用

main

檔案結構

📄 SKILL.md