下載技能 ZIP
在 Claude 中上傳
前往 設定 → 功能 → 技能 → 上傳技能
開啟並開始使用
測試它
正在使用「incident-runbook-templates」。 建立 API 閘道器高延遲的執行手冊
預期結果:
生成了一個綜合的 API 閘道器延遲執行手冊,包含偵測步驟(檢查延遲 p99、錯誤率、上游服務健康狀態)、分類程序(識別瓶頸、檢查相依性延遲)、減輕動作(啟用快取、增加逾時、擴展上游服務),以及確認延遲已恢復基準的驗證步驟。
正在使用「incident-runbook-templates」。 為 PostgreSQL 建立資料庫連線池耗盡執行手冊
預期結果:
生成了一個 PostgreSQL 連線池執行手冊,包含識別長時間執行連線的 SQL 查詢、終止閒置連線的步驟、組態調整建議(max_connections、pool size),以及包含連線池最佳實踐和監控警報的預防策略。
正在使用「incident-runbook-templates」。 為付款處理中斷建立溝通模板
預期結果:
生成了三個溝通模板:(1) 包含嚴重性分類、影響評估和事件負責人指派的初始內部通知,(2) 包含減輕進度和預估時間的狀態更新模板,(3) 包含透明影響描述、預估解決時間和致歉與補償方案(如適用)的客戶訊息。
安全審計
安全All 62 static findings are false positives from Markdown documentation. The skill contains only template documentation with code examples (bash, kubectl, SQL) in fenced code blocks. No executable code, no prompt injection attempts, and no security risks detected. Safe to publish.
品質評分
你能建構什麼
值班工程師回應 SEV1 事件
值班工程師在凌晨 3 點收到 PagerDuty 關於完全服務中斷的警報。他們使用此技能快速存取服務中斷執行手冊模板,該模板引導他們檢查 pod 狀態、檢視最近部署,並在需要時執行回滾。
SRE 團隊建立文件庫
SRE 團隊正在建立其事件管理流程。他們使用此技能為不同服務(付款處理、資料庫、API 閘道器)生成標準化執行手冊,確保整個組織的回應程序一致。
新創公司建立事件回應流程
一家成長中的新創公司需要在擴展時記錄其事件回應程序。他們使用此技能建立第一批執行手冊、定義嚴重性級別,並建立用於事故期間利害關係人更新的溝通模板。
試試這些提示
建立一個 Redis 快取服務中斷的執行手冊。包含檢查 pod 狀態、記憶體使用量和連線數量的步驟。新增回滾程序。
生成一個 MySQL 複製延遲的資料庫執行手冊。包含檢查延遲、識別慢查詢的查詢,以及在需要時提升複本的步驟。
設計一個電子商務平台的升級矩陣。包含 SEV1-SEV4 事件的條件,以及工程、法務、財務和高階管理團隊的適當聯絡人。
建立資料隱私事件的客戶溝通模板。包含符合法律要求的初始通知、更新和解決訊息。
最佳實務
- 在生產環境中使用前,使用您的實際服務名稱、Slack 頻道、PagerDuty 排程和儀表板 URL 客製化模板
- 在遊戲日或混沌工程演練期間測試執行手冊程序,以驗證準確性和完整性
- 每次事件後根據從事後檢討中獲得的經驗教訓和新見解更新執行手冊
- 在每個減輕動作後包含驗證步驟,在繼續下一步之前確認修復有效
- 連結到您的事件回應工具中的實際儀表板(Grafana、Sentry)和執行手冊,以便緊急時快速存取
避免
- 不要複製模板而未客製化佔位符(服務名稱、指令、聯絡人)以符合您的環境
- 不要跳過驗證步驟 - 始終確認減輕動作有效後再繼續
- 不要在事件期間孤立工作 - 使用升級矩陣儘早讓適當的團隊參與
- 不要將執行手冊視為靜態文件 - 每季或重大基礎設施變更後檢視並更新
- 不要假設事件期間會保留上下文 - 撰寫步驟時要讓凌晨 3 點睡眠不足的工程師也能清楚理解
常見問題
我可以為我的特定基礎設施修改這些模板嗎?
這些執行手冊適用於任何雲端提供者嗎?
我應該多久更新一次執行手冊?
我可以將這些用於非生產環境事件嗎?
我需要使用 Kubernetes 專家才能使用這些模板嗎?
我如何將這些與我的監控工具整合?
開發者詳情
作者
sickn33授權
MIT
儲存庫
https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/incident-runbook-templates引用
main
檔案結構
📄 SKILL.md