devops-troubleshooter
프로덕션 인시던트 빠른 디버깅
AI 기반 디버깅, 로그 분석 및 체계적인 문제 해결 방법론을 통해 프로덕션 인시던트를 신속하게 진단하고 해결합니다.
تنزيل ZIP المهارة
رفع في Claude
اذهب إلى Settings → Capabilities → Skills → Upload skill
فعّل وابدأ الاستخدام
اختبرها
استخدام "devops-troubleshooter". My Kubernetes pods are getting OOMKilled frequently. Memory limits are set to 512Mi but the application uses Java.
النتيجة المتوقعة:
This is a common Java on Kubernetes issue. JVM heap memory is only part of the memory footprint. Here's my assessment:
**Immediate Actions:**
1. Check actual memory usage: `kubectl top pods`
2. Review JVM flags: Ensure -Xmx is set appropriately (typically 50-75% of container limit)
3. Consider setting JVM memory to match container limits using Kubernetes downward API
**Root Cause:** Java process uses heap + metaspace + thread stacks + native memory. A 512Mi limit with default JVM settings will cause OOMKills.
**Recommended Fix:**
```yaml
resources:
limits:
memory: "1Gi"
env:
- name: JAVA_OPTS
value: "-XX:MaxRAMPercentage=75.0 -XX:+UseG1GC"
```
**Prevention:** Add memory utilization alerts at 80% threshold.
استخدام "devops-troubleshooter". We are seeing intermittent 504 errors from our load balancer. The backend services appear healthy.
النتيجة المتوقعة:
This could be caused by several factors. Let me guide you through the troubleshooting steps:
**Immediate Investigation:**
1. Check backend response times: `curl -w '%{time_total}' http://backend/health`
2. Review load balancer access logs for timing patterns
3. Check for connection queue buildup
**Common Causes:**
- Backend taking too long to respond (check for slow database queries)
- Idle timeout settings too aggressive
- Keep-alive misconfigurations between load balancer and backends
- TLS handshake delays
- Health checks interfering with traffic
**Next Steps:**
1. Enable detailed logging on the load balancer
2. Add custom metrics for backend latency percentiles
3. Check if the issue correlates with specific request patterns or times
Would you like me to help investigate any of these specific areas?
التدقيق الأمني
آمنPrompt-only skill with no executable code. Static analysis scanned 0 files (0 lines) and detected 0 security issues. This is a pure text-based skill that provides debugging guidance through structured prompts. No risk factors present.
درجة الجودة
ماذا يمكنك بناءه
프로덕션 인시던트 대응
초기 평가부터 근본 원인 분석까지 프로덕션 중단을 진단하고 해결하기 위한 즉각적인 지침을 받으세요.
Kubernetes 클러스터 디버깅
Kubernetes 환경에서 파드 실패, 네트워킹 문제, 서비스 메시 문제 및 리소스 제약 문제를 해결합니다.
성능 최적화
로그 분석, 분산 추적 상관 관계 및 시스템 프로파일링 권장 사항을 통해 성능 병목 현상을 식별합니다.
جرّب هذه الموجهات
프로덕션 서비스가 [문제 설명: 높은 지연/오류/중단]을 겪고 있습니다. [사용 가능한 데이터 설명: X의 로그, Y의 메트릭]가 있습니다. 근본 원인을 진단하는 것을 도와주세요.
[CrashLoopBackOff/실행 중 상태] Kubernetes 파드가 있으며 다음 이벤트가 있습니다: [kubectl describe 출력 붙여넣기]. 로그에 다음과 같습니다: [관련 로그 붙여넣기]. 무엇을 조사해야 합니까?
[ELK/Loki/클라우드 로그]에서 다음 오류 패턴이 보입니다: [오류 메시지 및 타임스탬프 붙여넣기]. 오류가 [언제] 시작되었습니다. 이 로그를 상관시키고 근본 원인을 식별하는 것을 도와주세요.
أفضل الممارسات
- 잘못된 진단을 피하기 위해 가설을 세우기 전에 항상 로그, 메트릭 및 시스템 상태를 수집하세요
- 가장 간단한 설명으로 시작하고 복잡한 원인은 배제된 경우에만 진행하세요
- 사후 분석 및 지식 공유를 위해 모든 조사 단계와 결과를 문서화하세요
تجنب
- 제어된 환경에서 먼저 문제를 재현하지 않고 프로덕션 시스템에 변경を加える
- 기본 문제와 관련 없는 것처럼 보이는 오류 메시지 및 증상을 무시하는
- 증상에 집중하고 근본 원인이 아닌 임시 해결책에 의존하여 나중에 실패하는
الأسئلة المتكررة
이 스킬이 서버에서 명령어를 실행할 수 있나요?
이 스킬이 지원하는 관측 플랫폼은 무엇인가요?
보안 인시던트 대응에 이 스킬을 사용할 수 있나요?
이 스킬이 AWS 및 Azure 같은 클라우드 플랫폼에서 작동하나요?
이 스킬이 Kubernetes 디버깅을 어떻게 처리하나요?
이 스킬이 CI/CD 파이프라인 문제에 도움이 될 수 있나요?
تفاصيل المطور
المؤلف
sickn33الترخيص
MIT
المستودع
https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/devops-troubleshooterمرجع
main
بنية الملفات
📄 SKILL.md