Fähigkeiten incident-runbook-templates

📋

incident-runbook-templates

Name: incident-runbook-templates
Author: sickn33

Sicher

Incident-Response-Runbooks erstellen

Auch verfügbar von: wshobson

Erstellen Sie schnell umfassende Incident-Response-Runbooks mit bewährten Vorlagen. Verkürzen Sie die Incident-Lösungszeit, indem Sie schrittweise Verfahren für Erkennung, Triage, Mitigation und Kommunikation bereitstellen.

Unterstützt: Claude Codex Code(CC)

🥉 72 Bronze

Die Skill-ZIP herunterladen

In Claude hochladen

Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen

Einschalten und loslegen

Teste es

Verwendung von "incident-runbook-templates". Create a runbook for API gateway high latency

Erwartetes Ergebnis:

Generiert ein umfassendes API-Gateway-Latenz-Runbook mit Erkennungsschritten (p99-Latenz, Fehlerraten, Gesundheit der Upstream-Dienste), Triage-Verfahren (Engpässe identifizieren, Abhängigkeitslatenz überprüfen), Mitigation-Aktionen (Caching aktivieren, Timeouts erhöhen, Upstream-Dienste skalieren) und Verifizierungsschritten zur Bestätigung, dass die Latenz auf den Basiswert zurückgekehrt ist.

Verwendung von "incident-runbook-templates". Build a database connection pool exhaustion runbook for PostgreSQL

Erwartetes Ergebnis:

Generiert ein PostgreSQL-Verbindungspool-Runbook mit SQL-Abfragen zur Identifizierung lang laufender Verbindungen, Schritten zum Beenden inaktiver Verbindungen, Konfigurations-Optimierungsempfehlungen (max_connections, Pool-Größe) und Präventionsstrategien einschließlich bewährter Verfahren für Verbindungspooling und Monitoring-Alarme.

Verwendung von "incident-runbook-templates". Create communication templates for a payment processing outage

Erwartetes Ergebnis:

Generiert drei Kommunikationsvorlagen: (1) Erste interne Benachrichtigung mit Schweregradklassifizierung, Auswirkungsbewertung und Incident-Commander-Zuweisung, (2) Status-Update-Vorlage mit Mitigation-Fortschritt und ETA, (3) Kundenseitige Nachricht mit transparenter Auswirkungsbeschreibung, geschätzter Lösungszeit und Entschuldigung mit Entschädigungsangebot falls zutreffend.

Sicherheitsaudit

Sicher

v1 • 2/25/2026

All 62 static findings are false positives from Markdown documentation. The skill contains only template documentation with code examples (bash, kubectl, SQL) in fenced code blocks. No executable code, no prompt injection attempts, and no security risks detected. Safe to publish.

Gescannte Dateien

398

Analysierte Zeilen

befunde

Gesamtzahl Audits

Keine Sicherheitsprobleme gefunden

Auditiert von: claude

Qualitätsbewertung

Architektur

100

Wartbarkeit

Inhalt

Community

100

Sicherheit

100

Spezifikationskonformität

Was du bauen kannst

On-Call-Ingenieur reagiert auf SEV1-Incident

Ein On-Call-Ingenieur erhält um 3 Uhr morgens eine PagerDuty-Alarmierung für einen vollständigen Service-Ausfall. Er verwendet dieses Skill, um schnell auf die Service-Ausfall-Runbook-Vorlage zuzugreifen, die ihn durch das Überprüfen des Pod-Status, das Überprüfen der letzten Deployments und das Ausführen eines Rollbacks bei Bedarf führt.

SRE-Team erstellt Dokumentationsbibliothek

Ein SRE-Team etabliert seinen Incident-Management-Prozess. Sie verwenden dieses Skill, um standardisierte Runbooks für verschiedene Dienste (Zahlungsverarbeitung, Datenbank, API-Gateway) zu generieren und konsistente Reaktionsverfahren in der gesamten Organisation sicherzustellen.

Startup etabliert Incident-Response-Prozess

Ein wachsendes Startup muss seine Incident-Response-Verfahren dokumentieren, während es skaliert. Sie verwenden dieses Skill, um ihren ersten Satz von Runbooks zu erstellen, Schweregrade zu definieren und Kommunikationsvorlagen für Stakeholder-Updates während Incidents aufzubauen.

Probiere diese Prompts

Service-Ausfall-Runbook generieren

Erstellen Sie ein Runbook für einen Redis-Cache-Service-Ausfall. Fügen Sie Schritte zur Überprüfung des Pod-Status, der Speichernutzung und der Verbindungsanzahl hinzu. Fügen Sie Rollback-Verfahren hinzu.

Datenbank-Incident-Runbook erstellen

Generieren Sie ein Datenbank-Runbook für MySQL-Replikationsverzögerung. Fügen Sie Abfragen zur Überprüfung der Verzögerung, zur Identifizierung langsamer Abfragen und Schritte zur Beförderung eines Replikats bei Bedarf hinzu.

Eskalationsmatrix erstellen

Entwerfen Sie eine Eskalationsmatrix für eine E-Commerce-Plattform. Fügen Sie Bedingungen für SEV1-SEV4-Incidents mit entsprechenden Kontakten für Engineering-, Rechts-, Finanz- und Führungsteams hinzu.

Kommunikationsvorlagen generieren

Erstellen Sie kundenseitige Kommunikationsvorlagen für einen Datenschutzvorfall. Führen Sie erste Benachrichtigungs-, Update- und Lösungsmeldungen ein, die gesetzliche Anforderungen erfüllen.

Bewährte Verfahren

Passen Sie Vorlagen mit Ihren tatsächlichen Service-Namen, Slack-Kanälen, PagerDuty-Zeitplänen und Dashboard-URLs an, bevor Sie sie in der Produktion verwenden
Testen Sie Runbook-Verfahren während Game Days oder Chaos-Engineering-Übungen, um Genauigkeit und Vollständigkeit zu validieren
Aktualisieren Sie Runbooks nach jedem Incident basierend auf Erkenntnissen aus Postmortems und neuen Einsichten
Fügen Sie Verifizierungsschritte nach jeder Mitigation-Aktion hinzu, um zu bestätigen, dass der Fix funktioniert hat, bevor Sie zum nächsten Schritt übergehen
Verknüpfen Sie tatsächliche Dashboards (Grafana, Sentry) und Runbooks in Ihren Incident-Response-Tools für schnellen Zugriff während Notfällen

Vermeiden

Kopieren Sie keine Vorlagen, ohne Platzhalter (Service-Namen, Befehle, Kontakte) für Ihre Umgebung anzupassen
Überspringen Sie nicht die Verifizierungsschritte - bestätigen Sie immer, dass eine Mitigation-Aktion funktioniert hat, bevor Sie fortfahren
Arbeiten Sie während Incidents nicht isoliert - verwenden Sie die Eskalationsmatrix, um frühzeitig geeigte Teams einzubinden
Behandeln Sie Runbooks nicht als statische Dokumente - überprüfen und aktualisieren Sie sie vierteljährlich oder nach größeren Infrastrukturänderungen
Gehen Sie nicht davon aus, dass Kontext während Incidents erhalten bleibt - schreiben Sie Schritte klar genug für einen schläfrigen Ingenieur um 3 Uhr morgens

Häufig gestellte Fragen

Kann ich diese Vorlagen für meine spezifische Infrastruktur anpassen?

Ja, diese Vorlagen sind zur Anpassung konzipiert. Ersetzen Sie Platzhalter-Service-Namen, Befehle, URLs und Kontaktinformationen durch Ihre tatsächlichen Infrastrukturdaten.

Funktionieren diese Runbooks mit jedem Cloud-Anbieter?

Ja, die Vorlagen sind cloud-agnostisch, zeigen aber hauptsächlich Kubernetes-Beispiele. Passen Sie Befehle für AWS-, GCP- oder Azure-spezifische Tools nach Bedarf an.

Wie oft sollte ich meine Runbooks aktualisieren?

Aktualisieren Sie Runbooks nach jedem Incident, um Erkenntnisse zu erfassen, und überprüfen Sie alle Runbooks vierteljährlich, um sicherzustellen, dass sie Ihre aktuelle Infrastruktur widerspiegeln.

Kann ich diese für Nicht-Produktions-Incidents verwenden?

Ja, passen Sie die Schweregrade und Reaktionszeiten für Ihre Umgebung an. Für Staging sollten Sie SEV3-SEV4-Klassifizierungen und längere Reaktionszeiten in Betracht ziehen.

Muss ich ein Kubernetes-Experte sein, um diese Vorlagen zu verwenden?

Grundlegende Kubernetes-Kenntnisse sind für die Service-Ausfall-Vorlagen hilfreich, aber die Konzepte gelten für jede Infrastruktur. Passen Sie die Befehle für Ihre Deployment-Plattform an.

Wie integriere ich diese mit meinen Monitoring-Tools?

Ersetzen Sie die Beispiel-Dashboard-URLs (Grafana, Sentry) und Alarmierungsbeispiele durch Ihre tatsächlichen Monitoring-Tool-URLs und Alarmierungskonfigurationen.

Entwicklerdetails

Autor

sickn33

Lizenz

MIT

Repository

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/incident-runbook-templates

Ref

main

Dateistruktur

📄 SKILL.md