Fähigkeiten devops-troubleshooter

🔧

devops-troubleshooter

Name: devops-troubleshooter
Author: sickn33

Sicher

Produktionsincidents schnell debuggen

Diagnostizieren und beheben Sie Produktionsincidents schnell mit KI-gesteuertem Debugging, Log-Analyse und systematischen Fehlerbehebungsmethoden.

Unterstützt: Claude Codex Code(CC)

📊 71 Angemessen

Die Skill-ZIP herunterladen

In Claude hochladen

Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen

Einschalten und loslegen

Teste es

Verwendung von "devops-troubleshooter". My Kubernetes pods are getting OOMKilled frequently. Memory limits are set to 512Mi but the application uses Java.

Erwartetes Ergebnis:

Dies ist ein häufiges Java-on-Kubernetes-Problem. JVM-Heap-Speicher ist nur ein Teil des Speicherbedarfs. Hier ist meine Bewertung:

**Sofortige Maßnahmen:**
1. Tatsächliche Speichernutzung prüfen: `kubectl top pods`
2. JVM-Flags überprüfen: Stellen Sie sicher, dass -Xmx entsprechend eingestellt ist (typischerweise 50-75% des Container-Limits)
3. Erwägen Sie, die JVM-Speichergröße mit Kubernetes Downward API an die Container-Limits anzupassen

**Root Cause:** Java-Prozesse nutzen Heap + Metaspace + Thread-Stacks + nativer Speicher. Ein 512Mi-Limit mit Standard-JVM-Einstellungen führt zu OOMKills.

**Empfohlene Lösung:**
```yaml
resources:
limits:
memory: "1Gi"
env:
- name: JAVA_OPTS
value: "-XX:MaxRAMPercentage=75.0 -XX:+UseG1GC"
```

**Prävention:** Fügen Sie Alarme bei 80% Speicherauslastung hinzu.

Verwendung von "devops-troubleshooter". We are seeing intermittent 504 errors from our load balancer. The backend services appear healthy.

Erwartetes Ergebnis:

Dies kann durch mehrere Faktoren verursacht werden. Lassen Sie mich Sie durch die Fehlerbehebungsschritte führen:

**Sofortige Untersuchung:**
1. Backend-Antwortzeiten prüfen: `curl -w '%{time_total}' http://backend/health`
2. Load-Balancer-Zugriffslogs auf Zeitmuster überprüfen
3. Auf Aufbau von Verbindungswarteschlangen prüfen

**Häufige Ursachen:**
- Backend braucht zu lange für Antworten (auf langsame Datenbankabfragen prüfen)
- Idle-Timeout-Einstellungen zu aggressiv
- Keep-Alive-Fehlkonfigurationen zwischen Load Balancer und Backends
- TLS-Handshake-Verzögerungen
- Health Checks beeinflussen den Datenverkehr

**Nächste Schritte:**
1. Detailliertes Logging am Load Balancer aktivieren
2. Benutzerdefinierte Metriken für Backend-Latenz-Perzentile hinzufügen
3. Prüfen, ob das Problem mit bestimmten Anfragemustern oder Zeiten korreliert

Möchten Sie, dass ich Ihnen bei der Untersuchung dieser spezifischen Bereiche helfe?

Sicherheitsaudit

Sicher

v1 • 2/24/2026

Prompt-only skill with no executable code. Static analysis scanned 0 files (0 lines) and detected 0 security issues. This is a pure text-based skill that provides debugging guidance through structured prompts. No risk factors present.

Gescannte Dateien

Analysierte Zeilen

befunde

Gesamtzahl Audits

Keine Sicherheitsprobleme gefunden

Auditiert von: claude

Qualitätsbewertung

Architektur

100

Wartbarkeit

Inhalt

Community

100

Sicherheit

100

Spezifikationskonformität

Was du bauen kannst

Produktionsincident-Response

Erhalten Sie sofortige Anleitung zur Diagnose und Behebung von Produktionsausfällen, von der ersten Bewertung bis zur Root-Cause-Analyse.

Kubernetes-Cluster-Debugging

Beheben Sie Pod-Ausfälle, Netzwerkprobleme, Service-Mesh-Probleme und Ressourcenbeschränkungen in Kubernetes-Umgebungen.

Performance-Optimierung

Identifizieren Sie Performance-Engpässe durch Log-Analyse, Korrelation von verteiltem Tracing und Systemprofiling-Empfehlungen.

Probiere diese Prompts

Grundlegende Incident-Triage

My production service is experiencing [describe issue: high latency/errors/outage]. I have [describe available data: logs from X, metrics from Y]. Help me diagnose the root cause.

Kubernetes-Pod-Debugging

I have a Kubernetes pod in [CrashLoopBackOff/Running state] with the following events: [paste kubectl describe output]. The logs show: [paste relevant logs]. What should I investigate?

Log-Analyse-Anfrage

I'm seeing this error pattern in my [ELK/Loki/cloud logs]: [paste error messages and timestamps]. The error started [when]. Help me correlate these logs and identify the root cause.

Post-Mortem-Analyse

We had an incident where [describe incident]. Timeline: [paste timeline]. The following systems were affected: [list]. What systemic issues contributed to this failure and how can we prevent recurrence?

Bewährte Verfahren

Sammeln Sie immer Logs, Metriken und Systemzustand, bevor Sie Hypothesen bilden, um Fehldiagnosen zu vermeiden
Beginnen Sie mit der einfachsten Erklärung und eskalieren Sie zu komplexen Ursachen nur, wenn diese ausgeschlossen wurden
Dokumentieren Sie alle Untersuchungsschritte und Erkenntnisse für Postmortems und Wissensweitergabe

Vermeiden

Änderungen an Produktionssystemen vornehmen, ohne das Problem zunächst in einer kontrollierten Umgebung zu reproduzieren
Fehlermeldungen und Symptome ignorieren, die nicht mit dem Hauptproblem zusammenzuhängen scheinen
Sich auf Symptome statt auf die Root Cause konzentrieren, was zu temporären Fixes führt, die später fehlschlagen

Häufig gestellte Fragen

Kann dieses Skill Befehle auf meinen Servern ausführen?

Nein. Dies ist ein Prompt-basiertes Skill, das Anleitungen und Empfehlungen gibt. Sie müssen alle Befehle selbst ausführen.

Welche Observability-Plattformen unterstützt dieses Skill?

Es unterstützt ELK Stack, Loki/Grafana, DataDog, New Relic, Jaeger, Zipkin, Prometheus und OpenTelemetry unter anderem.

Kann ich dieses Skill für Security-Incident-Response verwenden?

Ja. Das Skill enthält Anleitungen zur Authentifizierungs-Debugging, Zertifikatsproblemen und Sicherheits-Log-Analyse.

Funktioniert dieses Skill mit Cloud-Plattformen wie AWS und Azure?

Ja. Es behandelt AWS CloudWatch, Azure Monitor, GCP Cloud Logging und Multi-Cloud-Fehlerbehebungsszenarien.

Wie behandelt dieses Skill Kubernetes-Debugging?

Es bietet Anleitungen für kubectl-Befehle, Pod-Fehlerbehebung, Service-Mesh-Probleme, Netzwerk und Speicherprobleme.

Kann dieses Skill bei CI/CD-Pipeline-Problemen helfen?

Ja. Es behandelt Build-Fehler, Deployment-Probleme, GitOps-Issues und Pipeline-Optimierung.

Entwicklerdetails

Autor

sickn33

Lizenz

MIT

Repository

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/devops-troubleshooter

Ref

main

Dateistruktur

📄 SKILL.md