Erstellen Sie schnell umfassende Incident-Response-Runbooks mit bewährten Vorlagen. Verkürzen Sie die Incident-Lösungszeit, indem Sie schrittweise Verfahren für Erkennung, Triage, Mitigation und Kommunikation bereitstellen.
Die Skill-ZIP herunterladen
In Claude hochladen
Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen
Einschalten und loslegen
Teste es
Verwendung von "incident-runbook-templates". Create a runbook for API gateway high latency
Erwartetes Ergebnis:
Generiert ein umfassendes API-Gateway-Latenz-Runbook mit Erkennungsschritten (p99-Latenz, Fehlerraten, Gesundheit der Upstream-Dienste), Triage-Verfahren (Engpässe identifizieren, Abhängigkeitslatenz überprüfen), Mitigation-Aktionen (Caching aktivieren, Timeouts erhöhen, Upstream-Dienste skalieren) und Verifizierungsschritten zur Bestätigung, dass die Latenz auf den Basiswert zurückgekehrt ist.
Verwendung von "incident-runbook-templates". Build a database connection pool exhaustion runbook for PostgreSQL
Erwartetes Ergebnis:
Generiert ein PostgreSQL-Verbindungspool-Runbook mit SQL-Abfragen zur Identifizierung lang laufender Verbindungen, Schritten zum Beenden inaktiver Verbindungen, Konfigurations-Optimierungsempfehlungen (max_connections, Pool-Größe) und Präventionsstrategien einschließlich bewährter Verfahren für Verbindungspooling und Monitoring-Alarme.
Verwendung von "incident-runbook-templates". Create communication templates for a payment processing outage
Erwartetes Ergebnis:
Generiert drei Kommunikationsvorlagen: (1) Erste interne Benachrichtigung mit Schweregradklassifizierung, Auswirkungsbewertung und Incident-Commander-Zuweisung, (2) Status-Update-Vorlage mit Mitigation-Fortschritt und ETA, (3) Kundenseitige Nachricht mit transparenter Auswirkungsbeschreibung, geschätzter Lösungszeit und Entschuldigung mit Entschädigungsangebot falls zutreffend.
Sicherheitsaudit
SicherAll 62 static findings are false positives from Markdown documentation. The skill contains only template documentation with code examples (bash, kubectl, SQL) in fenced code blocks. No executable code, no prompt injection attempts, and no security risks detected. Safe to publish.
Qualitätsbewertung
Was du bauen kannst
On-Call-Ingenieur reagiert auf SEV1-Incident
Ein On-Call-Ingenieur erhält um 3 Uhr morgens eine PagerDuty-Alarmierung für einen vollständigen Service-Ausfall. Er verwendet dieses Skill, um schnell auf die Service-Ausfall-Runbook-Vorlage zuzugreifen, die ihn durch das Überprüfen des Pod-Status, das Überprüfen der letzten Deployments und das Ausführen eines Rollbacks bei Bedarf führt.
SRE-Team erstellt Dokumentationsbibliothek
Ein SRE-Team etabliert seinen Incident-Management-Prozess. Sie verwenden dieses Skill, um standardisierte Runbooks für verschiedene Dienste (Zahlungsverarbeitung, Datenbank, API-Gateway) zu generieren und konsistente Reaktionsverfahren in der gesamten Organisation sicherzustellen.
Startup etabliert Incident-Response-Prozess
Ein wachsendes Startup muss seine Incident-Response-Verfahren dokumentieren, während es skaliert. Sie verwenden dieses Skill, um ihren ersten Satz von Runbooks zu erstellen, Schweregrade zu definieren und Kommunikationsvorlagen für Stakeholder-Updates während Incidents aufzubauen.
Probiere diese Prompts
Erstellen Sie ein Runbook für einen Redis-Cache-Service-Ausfall. Fügen Sie Schritte zur Überprüfung des Pod-Status, der Speichernutzung und der Verbindungsanzahl hinzu. Fügen Sie Rollback-Verfahren hinzu.
Generieren Sie ein Datenbank-Runbook für MySQL-Replikationsverzögerung. Fügen Sie Abfragen zur Überprüfung der Verzögerung, zur Identifizierung langsamer Abfragen und Schritte zur Beförderung eines Replikats bei Bedarf hinzu.
Entwerfen Sie eine Eskalationsmatrix für eine E-Commerce-Plattform. Fügen Sie Bedingungen für SEV1-SEV4-Incidents mit entsprechenden Kontakten für Engineering-, Rechts-, Finanz- und Führungsteams hinzu.
Erstellen Sie kundenseitige Kommunikationsvorlagen für einen Datenschutzvorfall. Führen Sie erste Benachrichtigungs-, Update- und Lösungsmeldungen ein, die gesetzliche Anforderungen erfüllen.
Bewährte Verfahren
- Passen Sie Vorlagen mit Ihren tatsächlichen Service-Namen, Slack-Kanälen, PagerDuty-Zeitplänen und Dashboard-URLs an, bevor Sie sie in der Produktion verwenden
- Testen Sie Runbook-Verfahren während Game Days oder Chaos-Engineering-Übungen, um Genauigkeit und Vollständigkeit zu validieren
- Aktualisieren Sie Runbooks nach jedem Incident basierend auf Erkenntnissen aus Postmortems und neuen Einsichten
- Fügen Sie Verifizierungsschritte nach jeder Mitigation-Aktion hinzu, um zu bestätigen, dass der Fix funktioniert hat, bevor Sie zum nächsten Schritt übergehen
- Verknüpfen Sie tatsächliche Dashboards (Grafana, Sentry) und Runbooks in Ihren Incident-Response-Tools für schnellen Zugriff während Notfällen
Vermeiden
- Kopieren Sie keine Vorlagen, ohne Platzhalter (Service-Namen, Befehle, Kontakte) für Ihre Umgebung anzupassen
- Überspringen Sie nicht die Verifizierungsschritte - bestätigen Sie immer, dass eine Mitigation-Aktion funktioniert hat, bevor Sie fortfahren
- Arbeiten Sie während Incidents nicht isoliert - verwenden Sie die Eskalationsmatrix, um frühzeitig geeigte Teams einzubinden
- Behandeln Sie Runbooks nicht als statische Dokumente - überprüfen und aktualisieren Sie sie vierteljährlich oder nach größeren Infrastrukturänderungen
- Gehen Sie nicht davon aus, dass Kontext während Incidents erhalten bleibt - schreiben Sie Schritte klar genug für einen schläfrigen Ingenieur um 3 Uhr morgens
Häufig gestellte Fragen
Kann ich diese Vorlagen für meine spezifische Infrastruktur anpassen?
Funktionieren diese Runbooks mit jedem Cloud-Anbieter?
Wie oft sollte ich meine Runbooks aktualisieren?
Kann ich diese für Nicht-Produktions-Incidents verwenden?
Muss ich ein Kubernetes-Experte sein, um diese Vorlagen zu verwenden?
Wie integriere ich diese mit meinen Monitoring-Tools?
Entwicklerdetails
Autor
sickn33Lizenz
MIT
Repository
https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/incident-runbook-templatesRef
main
Dateistruktur
📄 SKILL.md