incident-response-smart-fix
Incidents mit Multi-Agent-AI-Orchestrierung lösen
Produktionsincidents erfordern eine koordinierte Untersuchung über mehrere Systeme und Domänen hinweg. Dieser Workflow orchestriert spezialisierte AI-Agenten durch eine bewährte Fünf-Phasen-Pipeline, um Grundursachen zu diagnostizieren, Fixes zu implementieren und ein Wiederauftreten zu verhindern.
Die Skill-ZIP herunterladen
In Claude hochladen
Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen
Einschalten und loslegen
Teste es
Verwendung von "incident-response-smart-fix". Benutzer erleben Timeout-Fehler auf der Checkout-Seite mit 500+ Fehlern pro Stunde
Erwartetes Ergebnis:
Grundursache identifiziert: Fehlender Datenbank-Index auf user_id-Spalte verursacht 5-Sekunden-Query-Zeiten. Fix implementiert: Index hinzugefügt, reduziert Query-Zeit auf 50ms, Redis-Caching für User-Profile hinzugefügt. Tests: 24 Unit-Tests, 8 Integration-Tests, alle bestanden. Monitoring: Alarme für Query-p95-Latenz und Cache-Hit-Rate konfiguriert. Deployment: Canary-Rollout auf 5% Traffic mit definierten Abbruchkriterien.
Verwendung von "incident-response-smart-fix". TypeError Cannot read property map of undefined betrifft Safari iOS 14 Benutzer
Erwartetes Ergebnis:
Grundursache identifiziert: API gibt null statt leerem Array zurück, wenn keine Ergebnisse vorhanden sind. Fix implementiert: Null-Checks und Type-Guards im Frontend hinzugefügt, Backend aktualisiert, um leeres Array gemäß API-Vertrag zurückzugeben. Tests: Cross-Browser-Test-Suite bestanden einschließlich iOS 14 Safari. Prävention: TypeScript strict null checks aktiviert, OpenAPI-Spezifikation aktualisiert, um Array-Rückgabetyp zu dokumentieren.
Sicherheitsaudit
SicherStatic analyzer detected 62 patterns but all are FALSE POSITIVES. The skill consists entirely of Markdown documentation files (.md) describing incident response workflows. Patterns flagged as 'external commands' are bash code blocks in documentation, not executable code. 'Windows SAM database' and 'weak crypto' references appear in example output templates, not actual implementations. No executable code, network calls, or file system operations present.
Qualitätsbewertung
Was du bauen kannst
Produktionsfehler-Untersuchung und -Fix
Verwenden Sie dies, wenn Produktionsfehler Benutzer beeinträchtigen und eine schnelle Diagnose und Auflösung erfordern. Der Workflow analysiert Fehlersignaturen, identifiziert die Grundursache durch git bisect und Code-Analyse, implementiert einen Fix mit Tests und verifiziert vor dem Deployment, dass keine Regressionen auftreten.
Systemübergreifende Performance-Verschlechterung
Verwenden Sie dies, wenn Performance-Probleme mehrere Services oder Schichten (Datenbank, Anwendung, Cache) betreffen. Der Workflow koordiniert Datenbank-Optimierer, Performance-Ingenieure und DevOps-Spezialisten, um Engpässe zu identifizieren und Optimierungen mit Monitoring zu implementieren.
Behebung von Sicherheitslücken
Verwenden Sie dies, wenn Security-Scans Schwachstellen identifizieren, die Code-Änderungen erfordern. Der Workflow leitet an Security-Spezialisten zur Fix-Implementierung weiter, fügt Security-Tests hinzu, führt Penetration-Testing-Validierung durch und dokumentiert Sicherheitsverbesserungen.
Probiere diese Prompts
Analysiere diesen Fehler und implementiere einen Fix: [Fehlermeldung einfügen]. Führe grundlegende Tests durch, um zu verifizieren, dass der Fix funktioniert. Konzentriere dich darauf, das unmittelbare Problem mit minimalen Änderungen zu lösen.
Untersuche diesen Produktionsincident: [Symptome beschreiben]. Folge dem Vier-Phasen-Workflow: (1) analysiere Fehler-Traces und Logs, (2) identifiziere die Grundursache mit git bisect und Code-Analyse, (3) implementiere Fix mit umfassenden Tests, (4) führe Regressionstest-Suite und Performance-Validierung durch. Füge Rollback-Plan hinzu.
Reagiere auf diesen kritischen Incident: [Auswirkung beschreiben]. Führe den kompletten Fünf-Phasen-Workflow einschließlich langfristiger Prävention aus. Füge Static-Analysis-Regeln, Typerweiterungen, Monitoring-Alarme hinzu und erstelle ein Postmortem. Konfiguriere Canary-Deployment mit Erfolgs-Metriken und Abbruchkriterien.
Orchestriere die Auflösung dieses systemübergreifenden Problems: [beteiligte Systeme beschreiben]. Koordiniere Agenten in Reihenfolge: [Agenten auflisten]. Übergebe expliziten Kontext zwischen Phasen einschließlich abgeschlossener Arbeit, wichtiger Erkenntnisse und verbleibender Aufgaben. Verifiziere Integrationspunkte und End-to-End-Verhalten.
Bewährte Verfahren
- Identifiziere immer die Grundursache vor der Implementierung von Fixes - verwende git bisect und Observability-Daten, um den Fehlermechanismus zu verstehen, nicht nur die Symptome
- Implementiere Präventionsmaßnahmen für hochkritische Incidents - füge Static-Analysis-Regeln, Typerweiterungen und Monitoring hinzu, um ähnliche Probleme frühzeitig zu erkennen
- Dokumentiere Rollback-Pläne und Erfolgs-Metriken vor dem Deployment - definiere klare Abbruchkriterien und überwache wichtige Metriken während des Canary-Rollouts
Vermeiden
- Symptome beheben ohne die Grundursache zu verstehen - dies führt zu wiederkehrenden Problemen und technischer Schuld
- Verifikationsphasen aus Zeitgründen überspringen - unzureichendes Testing verursacht Regressionen und verlängert die mittlere Zeit bis zur Wiederherstellung
- Fixes ohne Präventionsmaßnahmen implementieren - das gleiche Schwachstellen-Muster wird an anderen Code-Stellen wieder auftreten
Häufig gestellte Fragen
Wie wähle ich das passende Verifikations-Level?
Was tun, wenn das Problem mehrere Technologiedomänen betrifft?
Wie gehe ich mit Problemen in Sprachen ohne Spezialisten-Agent um?
Kann dieser Workflow Incidents behandeln, die sofortiges Handeln erfordern?
Welche Observability-Daten muss ich bereitstellen?
Woran erkenne ich, dass der Incident vollständig aufgelöst ist?
Entwicklerdetails
Autor
sickn33Lizenz
MIT
Repository
https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/incident-response-smart-fixRef
main
Dateistruktur