Compétences devops-troubleshooter
đź”§

devops-troubleshooter

Sûr

Produktionsincidents schnell debuggen

Diagnostizieren und beheben Sie Produktionsincidents schnell mit KI-gesteuertem Debugging, Log-Analyse und systematischen Fehlerbehebungsmethoden.

Prend en charge: Claude Codex Code(CC)
🥉 75 Bronze
1

Télécharger le ZIP du skill

2

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

3

Activez et commencez Ă  utiliser

Tester

Utilisation de "devops-troubleshooter". My Kubernetes pods are getting OOMKilled frequently. Memory limits are set to 512Mi but the application uses Java.

Résultat attendu:

Dies ist ein häufiges Java-on-Kubernetes-Problem. JVM-Heap-Speicher ist nur ein Teil des Speicherbedarfs. Hier ist meine Bewertung:

**Sofortige MaĂźnahmen:**
1. Tatsächliche Speichernutzung prüfen: `kubectl top pods`
2. JVM-Flags ĂĽberprĂĽfen: Stellen Sie sicher, dass -Xmx entsprechend eingestellt ist (typischerweise 50-75% des Container-Limits)
3. Erwägen Sie, die JVM-Speichergröße mit Kubernetes Downward API an die Container-Limits anzupassen

**Root Cause:** Java-Prozesse nutzen Heap + Metaspace + Thread-Stacks + nativer Speicher. Ein 512Mi-Limit mit Standard-JVM-Einstellungen fĂĽhrt zu OOMKills.

**Empfohlene Lösung:**
```yaml
resources:
limits:
memory: "1Gi"
env:
- name: JAVA_OPTS
value: "-XX:MaxRAMPercentage=75.0 -XX:+UseG1GC"
```

**Prävention:** Fügen Sie Alarme bei 80% Speicherauslastung hinzu.

Utilisation de "devops-troubleshooter". We are seeing intermittent 504 errors from our load balancer. The backend services appear healthy.

Résultat attendu:

Dies kann durch mehrere Faktoren verursacht werden. Lassen Sie mich Sie durch die Fehlerbehebungsschritte fĂĽhren:

**Sofortige Untersuchung:**
1. Backend-Antwortzeiten prĂĽfen: `curl -w '%{time_total}' http://backend/health`
2. Load-Balancer-Zugriffslogs auf Zeitmuster ĂĽberprĂĽfen
3. Auf Aufbau von Verbindungswarteschlangen prĂĽfen

**Häufige Ursachen:**
- Backend braucht zu lange fĂĽr Antworten (auf langsame Datenbankabfragen prĂĽfen)
- Idle-Timeout-Einstellungen zu aggressiv
- Keep-Alive-Fehlkonfigurationen zwischen Load Balancer und Backends
- TLS-Handshake-Verzögerungen
- Health Checks beeinflussen den Datenverkehr

**Nächste Schritte:**
1. Detailliertes Logging am Load Balancer aktivieren
2. Benutzerdefinierte Metriken fĂĽr Backend-Latenz-Perzentile hinzufĂĽgen
3. PrĂĽfen, ob das Problem mit bestimmten Anfragemustern oder Zeiten korreliert

Möchten Sie, dass ich Ihnen bei der Untersuchung dieser spezifischen Bereiche helfe?

Audit de sécurité

Sûr
v1 • 2/24/2026

Prompt-only skill with no executable code. Static analysis scanned 0 files (0 lines) and detected 0 security issues. This is a pure text-based skill that provides debugging guidance through structured prompts. No risk factors present.

0
Fichiers analysés
0
Lignes analysées
0
résultats
1
Total des audits
Aucun problème de sécurité trouvé
Audité par: claude

Score de qualité

38
Architecture
100
Maintenabilité
87
Contenu
50
Communauté
100
Sécurité
100
Conformité aux spécifications

Ce que vous pouvez construire

Produktionsincident-Response

Erhalten Sie sofortige Anleitung zur Diagnose und Behebung von Produktionsausfällen, von der ersten Bewertung bis zur Root-Cause-Analyse.

Kubernetes-Cluster-Debugging

Beheben Sie Pod-Ausfälle, Netzwerkprobleme, Service-Mesh-Probleme und Ressourcenbeschränkungen in Kubernetes-Umgebungen.

Performance-Optimierung

Identifizieren Sie Performance-Engpässe durch Log-Analyse, Korrelation von verteiltem Tracing und Systemprofiling-Empfehlungen.

Essayez ces prompts

Grundlegende Incident-Triage
My production service is experiencing [describe issue: high latency/errors/outage]. I have [describe available data: logs from X, metrics from Y]. Help me diagnose the root cause.
Kubernetes-Pod-Debugging
I have a Kubernetes pod in [CrashLoopBackOff/Running state] with the following events: [paste kubectl describe output]. The logs show: [paste relevant logs]. What should I investigate?
Log-Analyse-Anfrage
I'm seeing this error pattern in my [ELK/Loki/cloud logs]: [paste error messages and timestamps]. The error started [when]. Help me correlate these logs and identify the root cause.
Post-Mortem-Analyse
We had an incident where [describe incident]. Timeline: [paste timeline]. The following systems were affected: [list]. What systemic issues contributed to this failure and how can we prevent recurrence?

Bonnes pratiques

  • Sammeln Sie immer Logs, Metriken und Systemzustand, bevor Sie Hypothesen bilden, um Fehldiagnosen zu vermeiden
  • Beginnen Sie mit der einfachsten Erklärung und eskalieren Sie zu komplexen Ursachen nur, wenn diese ausgeschlossen wurden
  • Dokumentieren Sie alle Untersuchungsschritte und Erkenntnisse fĂĽr Postmortems und Wissensweitergabe

Éviter

  • Ă„nderungen an Produktionssystemen vornehmen, ohne das Problem zunächst in einer kontrollierten Umgebung zu reproduzieren
  • Fehlermeldungen und Symptome ignorieren, die nicht mit dem Hauptproblem zusammenzuhängen scheinen
  • Sich auf Symptome statt auf die Root Cause konzentrieren, was zu temporären Fixes fĂĽhrt, die später fehlschlagen

Foire aux questions

Kann dieses Skill Befehle auf meinen Servern ausfĂĽhren?
Nein. Dies ist ein Prompt-basiertes Skill, das Anleitungen und Empfehlungen gibt. Sie mĂĽssen alle Befehle selbst ausfĂĽhren.
Welche Observability-Plattformen unterstĂĽtzt dieses Skill?
Es unterstĂĽtzt ELK Stack, Loki/Grafana, DataDog, New Relic, Jaeger, Zipkin, Prometheus und OpenTelemetry unter anderem.
Kann ich dieses Skill fĂĽr Security-Incident-Response verwenden?
Ja. Das Skill enthält Anleitungen zur Authentifizierungs-Debugging, Zertifikatsproblemen und Sicherheits-Log-Analyse.
Funktioniert dieses Skill mit Cloud-Plattformen wie AWS und Azure?
Ja. Es behandelt AWS CloudWatch, Azure Monitor, GCP Cloud Logging und Multi-Cloud-Fehlerbehebungsszenarien.
Wie behandelt dieses Skill Kubernetes-Debugging?
Es bietet Anleitungen fĂĽr kubectl-Befehle, Pod-Fehlerbehebung, Service-Mesh-Probleme, Netzwerk und Speicherprobleme.
Kann dieses Skill bei CI/CD-Pipeline-Problemen helfen?
Ja. Es behandelt Build-Fehler, Deployment-Probleme, GitOps-Issues und Pipeline-Optimierung.

Détails du développeur

Structure de fichiers

đź“„ SKILL.md