Compétences devops-troubleshooter
🔧

devops-troubleshooter

Sûr

Depura Incidentes de Producción Rápidamente

Diagnostica y resuelve incidentes de producción rápidamente con depuración guiada por IA, análisis de registros y metodologías de resolución de problemas sistemáticas.

Prend en charge: Claude Codex Code(CC)
🥉 75 Bronze
1

Télécharger le ZIP du skill

2

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

3

Activez et commencez à utiliser

Tester

Utilisation de "devops-troubleshooter". Mis pods de Kubernetes están siendo OOMKilled frecuentemente. Los límites de memoria están configurados en 512Mi pero la aplicación usa Java.

Résultat attendu:

Este es un problema común de Java en Kubernetes. La memoria heap de JVM es solo parte de la huella de memoria. Aquí está mi evaluación:

**Acciones Inmediatas:**
1. Verifica el uso real de memoria: `kubectl top pods`
2. Revisa los flags de JVM: Asegúrate de que -Xmx esté configurado apropiadamente (típicamente 50-75% del límite del contenedor)
3. Considera configurar la memoria de JVM para que coincida con los límites del contenedor usando la Kubernetes downward API

**Causa Raíz:** El proceso Java usa heap + metaspace + stacks de threads + memoria nativa. Un límite de 512Mi con configuraciones JVM predeterminadas causará OOMKills.

**Solución Recomendada:**
```yaml
resources:
limits:
memory: "1Gi"
env:
- name: JAVA_OPTS
value: "-XX:MaxRAMPercentage=75.0 -XX:+UseG1GC"
```

**Prevención:** Agrega alertas de utilización de memoria al 80% del umbral.

Utilisation de "devops-troubleshooter". Estamos viendo errores 504 intermitentes de nuestro balanceador de carga. Los servicios de backend parecen saludables.

Résultat attendu:

Esto podría ser causado por varios factores. Permíteme guiarte a través de los pasos de resolución de problemas:

**Investigación Inmediata:**
1. Verifica los tiempos de respuesta del backend: `curl -w '%{time_total}' http://backend/health`
2. Revisa los registros de acceso del balanceador de carga para patrones de tiempo
3. Verifica si hay acumulación en la cola de conexiones

**Causas Comunes:**
- El backend tarda demasiado en responder (verifica si hay consultas lentas de base de datos)
- Configuraciones de idle timeout demasiado agresivas
- Configuraciones incorrectas de keep-alive entre el balanceador de carga y los backends
- Retrasos en el handshake TLS
- Los health checks interfieren con el tráfico

**Próximos Pasos:**
1. Habilita registro detallado en el balanceador de carga
2. Agrega métricas personalizadas para percentiles de latencia del backend
3. Verifica si el problema se correlaciona con patrones de solicitud o tiempos específicos

¿Te gustaría que te ayude a investigar alguna de estas áreas específicas?

Audit de sécurité

Sûr
v1 • 2/24/2026

Prompt-only skill with no executable code. Static analysis scanned 0 files (0 lines) and detected 0 security issues. This is a pure text-based skill that provides debugging guidance through structured prompts. No risk factors present.

0
Fichiers analysés
0
Lignes analysées
0
résultats
1
Total des audits
Aucun problème de sécurité trouvé
Audité par: claude

Score de qualité

38
Architecture
100
Maintenabilité
87
Contenu
50
Communauté
100
Sécurité
100
Conformité aux spécifications

Ce que vous pouvez construire

Respuesta a Incidentes de Producción

Obtén guía inmediata para diagnosticar y resolver interrupciones de producción, desde la evaluación inicial hasta el análisis de causa raíz.

Depuración de Clústeres de Kubernetes

Resuelve fallos de pods, problemas de red, problemas de service mesh y restricciones de recursos en entornos de Kubernetes.

Optimización de Rendimiento

Identifica cuellos de botella de rendimiento a través de análisis de registros, correlación de tracing distribuido y recomendaciones de profiling del sistema.

Essayez ces prompts

Triaje Básico de Incidentes
Mi servicio de producción está experimentando [describe el problema: alta latencia/errores/interrupción]. Tengo [describe los datos disponibles: registros de X, métricas de Y]. Ayúdame a diagnosticar la causa raíz.
Depuración de Pods de Kubernetes
Tengo un pod de Kubernetes en [estado CrashLoopBackOff/Running] con los siguientes eventos: [pega la salida de kubectl describe]. Los registros muestran: [pega los registros relevantes]. ¿Qué debería investigar?
Solicitud de Análisis de Registros
Veo este patrón de error en mis [registros ELK/Loki/cloud]: [pega los mensajes de error y marcas de tiempo]. El error comenzó [cuándo]. Ayúdame a correlacionar estos registros e identificar la causa raíz.
Análisis Post-Mortem
Tuvimos un incidente donde [describe el incidente]. Cronología: [pega la cronología]. Los siguientes sistemas fueron afectados: [lista]. ¿Qué problemas sistémicos contribuyeron a este fallo y cómo podemos evitar su recurrencia?

Bonnes pratiques

  • Siempre recopila registros, métricas y estado del sistema antes de formular hipótesis para evitar diagnósticos err��neos
  • Comienza con la explicación más simple y escala a causas complejas solo cuando se hayan descartado las simples
  • Documenta todos los pasos de investigación y hallazgos para el postmortem y compartir conocimiento

Éviter

  • Realizar cambios en sistemas de producción sin primero reproducir el problema en un entorno controlado
  • Ignorar mensajes de error y síntomas que parecen no relacionados con el problema principal
  • Enfocarse en síntomas en lugar de la causa raíz, lo que lleva a soluciones temporales que fallan después

Foire aux questions

¿Puede esta skill ejecutar comandos en mis servidores?
No. Esta es una skill basada en prompts que proporciona guía y recomendaciones. Debes ejecutar cualquier comando tú mismo.
¿Qué plataformas de observabilidad soporta esta skill?
Soporta ELK Stack, Loki/Grafana, DataDog, New Relic, Jaeger, Zipkin, Prometheus y OpenTelemetry, entre otros.
¿Puedo usar esta skill para respuesta a incidentes de seguridad?
Sí. La skill incluye guía para depuración de autenticación, problemas de certificados y análisis de registros de seguridad.
¿Esta skill funciona con plataformas cloud como AWS y Azure?
Sí. Cubre AWS CloudWatch, Azure Monitor, GCP Cloud Logging y escenarios de resolución de problemas multi-nube.
¿Cómo maneja esta skill la depuración de Kubernetes?
Proporciona guía para comandos kubectl, resolución de problemas de pods, problemas de service mesh, redes y problemas de almacenamiento.
¿Puede esta skill ayudar con problemas de pipelines de CI/CD?
Sí. Cubre fallos de compilación, problemas de despliegue, problemas de GitOps y optimización de pipelines.

Détails du développeur

Structure de fichiers

📄 SKILL.md