Habilidades devops-troubleshooter

🔧

devops-troubleshooter

Name: devops-troubleshooter
Author: sickn33

Seguro

Depura Incidentes de Producción Rápidamente

Diagnostica y resuelve incidentes de producción rápidamente con depuración guiada por IA, análisis de registros y metodologías de resolución de problemas sistemáticas.

Soporta: Claude Codex Code(CC)

📊 71 Adecuado

Descargar el ZIP de la skill

Subir en Claude

Ve a Configuración → Capacidades → Skills → Subir skill

Activa y empieza a usar

Pruébalo

Usando "devops-troubleshooter". Mis pods de Kubernetes están siendo OOMKilled frecuentemente. Los límites de memoria están configurados en 512Mi pero la aplicación usa Java.

Resultado esperado:

Este es un problema común de Java en Kubernetes. La memoria heap de JVM es solo parte de la huella de memoria. Aquí está mi evaluación:

**Acciones Inmediatas:**
1. Verifica el uso real de memoria: `kubectl top pods`
2. Revisa los flags de JVM: Asegúrate de que -Xmx esté configurado apropiadamente (típicamente 50-75% del límite del contenedor)
3. Considera configurar la memoria de JVM para que coincida con los límites del contenedor usando la Kubernetes downward API

**Causa Raíz:** El proceso Java usa heap + metaspace + stacks de threads + memoria nativa. Un límite de 512Mi con configuraciones JVM predeterminadas causará OOMKills.

**Solución Recomendada:**
```yaml
resources:
limits:
memory: "1Gi"
env:
- name: JAVA_OPTS
value: "-XX:MaxRAMPercentage=75.0 -XX:+UseG1GC"
```

**Prevención:** Agrega alertas de utilización de memoria al 80% del umbral.

Usando "devops-troubleshooter". Estamos viendo errores 504 intermitentes de nuestro balanceador de carga. Los servicios de backend parecen saludables.

Resultado esperado:

Esto podría ser causado por varios factores. Permíteme guiarte a través de los pasos de resolución de problemas:

**Investigación Inmediata:**
1. Verifica los tiempos de respuesta del backend: `curl -w '%{time_total}' http://backend/health`
2. Revisa los registros de acceso del balanceador de carga para patrones de tiempo
3. Verifica si hay acumulación en la cola de conexiones

**Causas Comunes:**
- El backend tarda demasiado en responder (verifica si hay consultas lentas de base de datos)
- Configuraciones de idle timeout demasiado agresivas
- Configuraciones incorrectas de keep-alive entre el balanceador de carga y los backends
- Retrasos en el handshake TLS
- Los health checks interfieren con el tráfico

**Próximos Pasos:**
1. Habilita registro detallado en el balanceador de carga
2. Agrega métricas personalizadas para percentiles de latencia del backend
3. Verifica si el problema se correlaciona con patrones de solicitud o tiempos específicos

¿Te gustaría que te ayude a investigar alguna de estas áreas específicas?

Auditoría de seguridad

Seguro

v1 • 2/24/2026

Prompt-only skill with no executable code. Static analysis scanned 0 files (0 lines) and detected 0 security issues. This is a pure text-based skill that provides debugging guidance through structured prompts. No risk factors present.

Archivos escaneados

Líneas analizadas

hallazgos

Auditorías totales

No se encontraron problemas de seguridad

Auditado por: claude

Puntuación de calidad

Arquitectura

100

Mantenibilidad

Contenido

Comunidad

100

Seguridad

100

Cumplimiento de la especificación

Lo que puedes crear

Respuesta a Incidentes de Producción

Obtén guía inmediata para diagnosticar y resolver interrupciones de producción, desde la evaluación inicial hasta el análisis de causa raíz.

Depuración de Clústeres de Kubernetes

Resuelve fallos de pods, problemas de red, problemas de service mesh y restricciones de recursos en entornos de Kubernetes.

Optimización de Rendimiento

Identifica cuellos de botella de rendimiento a través de análisis de registros, correlación de tracing distribuido y recomendaciones de profiling del sistema.

Prueba estos prompts

Triaje Básico de Incidentes

Mi servicio de producción está experimentando [describe el problema: alta latencia/errores/interrupción]. Tengo [describe los datos disponibles: registros de X, métricas de Y]. Ayúdame a diagnosticar la causa raíz.

Depuración de Pods de Kubernetes

Tengo un pod de Kubernetes en [estado CrashLoopBackOff/Running] con los siguientes eventos: [pega la salida de kubectl describe]. Los registros muestran: [pega los registros relevantes]. ¿Qué debería investigar?

Solicitud de Análisis de Registros

Veo este patrón de error en mis [registros ELK/Loki/cloud]: [pega los mensajes de error y marcas de tiempo]. El error comenzó [cuándo]. Ayúdame a correlacionar estos registros e identificar la causa raíz.

Análisis Post-Mortem

Tuvimos un incidente donde [describe el incidente]. Cronología: [pega la cronología]. Los siguientes sistemas fueron afectados: [lista]. ¿Qué problemas sistémicos contribuyeron a este fallo y cómo podemos evitar su recurrencia?

Mejores prácticas

Siempre recopila registros, métricas y estado del sistema antes de formular hipótesis para evitar diagnósticos err��neos
Comienza con la explicación más simple y escala a causas complejas solo cuando se hayan descartado las simples
Documenta todos los pasos de investigación y hallazgos para el postmortem y compartir conocimiento

Evitar

Realizar cambios en sistemas de producción sin primero reproducir el problema en un entorno controlado
Ignorar mensajes de error y síntomas que parecen no relacionados con el problema principal
Enfocarse en síntomas en lugar de la causa raíz, lo que lleva a soluciones temporales que fallan después

Preguntas frecuentes

¿Puede esta skill ejecutar comandos en mis servidores?

No. Esta es una skill basada en prompts que proporciona guía y recomendaciones. Debes ejecutar cualquier comando tú mismo.

¿Qué plataformas de observabilidad soporta esta skill?

Soporta ELK Stack, Loki/Grafana, DataDog, New Relic, Jaeger, Zipkin, Prometheus y OpenTelemetry, entre otros.

¿Puedo usar esta skill para respuesta a incidentes de seguridad?

Sí. La skill incluye guía para depuración de autenticación, problemas de certificados y análisis de registros de seguridad.

¿Esta skill funciona con plataformas cloud como AWS y Azure?

Sí. Cubre AWS CloudWatch, Azure Monitor, GCP Cloud Logging y escenarios de resolución de problemas multi-nube.

¿Cómo maneja esta skill la depuración de Kubernetes?

Proporciona guía para comandos kubectl, resolución de problemas de pods, problemas de service mesh, redes y problemas de almacenamiento.

¿Puede esta skill ayudar con problemas de pipelines de CI/CD?

Sí. Cubre fallos de compilación, problemas de despliegue, problemas de GitOps y optimización de pipelines.

Detalles del desarrollador

Autor

sickn33

Licencia

MIT

Repositorio

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/devops-troubleshooter

Ref.

main

Estructura de archivos

📄 SKILL.md