المهارات devops-troubleshooter
🔧

devops-troubleshooter

آمن

프로덕션 인시던트 빠른 디버깅

AI 기반 디버깅, 로그 분석 및 체계적인 문제 해결 방법론을 통해 프로덕션 인시던트를 신속하게 진단하고 해결합니다.

يدعم: Claude Codex Code(CC)
🥉 75 برونزي
1

تنزيل ZIP المهارة

2

رفع في Claude

اذهب إلى Settings → Capabilities → Skills → Upload skill

3

فعّل وابدأ الاستخدام

اختبرها

استخدام "devops-troubleshooter". My Kubernetes pods are getting OOMKilled frequently. Memory limits are set to 512Mi but the application uses Java.

النتيجة المتوقعة:

This is a common Java on Kubernetes issue. JVM heap memory is only part of the memory footprint. Here's my assessment:

**Immediate Actions:**
1. Check actual memory usage: `kubectl top pods`
2. Review JVM flags: Ensure -Xmx is set appropriately (typically 50-75% of container limit)
3. Consider setting JVM memory to match container limits using Kubernetes downward API

**Root Cause:** Java process uses heap + metaspace + thread stacks + native memory. A 512Mi limit with default JVM settings will cause OOMKills.

**Recommended Fix:**
```yaml
resources:
limits:
memory: "1Gi"
env:
- name: JAVA_OPTS
value: "-XX:MaxRAMPercentage=75.0 -XX:+UseG1GC"
```

**Prevention:** Add memory utilization alerts at 80% threshold.

استخدام "devops-troubleshooter". We are seeing intermittent 504 errors from our load balancer. The backend services appear healthy.

النتيجة المتوقعة:

This could be caused by several factors. Let me guide you through the troubleshooting steps:

**Immediate Investigation:**
1. Check backend response times: `curl -w '%{time_total}' http://backend/health`
2. Review load balancer access logs for timing patterns
3. Check for connection queue buildup

**Common Causes:**
- Backend taking too long to respond (check for slow database queries)
- Idle timeout settings too aggressive
- Keep-alive misconfigurations between load balancer and backends
- TLS handshake delays
- Health checks interfering with traffic

**Next Steps:**
1. Enable detailed logging on the load balancer
2. Add custom metrics for backend latency percentiles
3. Check if the issue correlates with specific request patterns or times

Would you like me to help investigate any of these specific areas?

التدقيق الأمني

آمن
v1 • 2/24/2026

Prompt-only skill with no executable code. Static analysis scanned 0 files (0 lines) and detected 0 security issues. This is a pure text-based skill that provides debugging guidance through structured prompts. No risk factors present.

0
الملفات التي تم فحصها
0
الأسطر التي تم تحليلها
0
النتائج
1
إجمالي عمليات التدقيق
لا توجد مشكلات أمنية
تم تدقيقه بواسطة: claude

درجة الجودة

38
الهندسة المعمارية
100
قابلية الصيانة
87
المحتوى
50
المجتمع
100
الأمان
100
الامتثال للمواصفات

ماذا يمكنك بناءه

프로덕션 인시던트 대응

초기 평가부터 근본 원인 분석까지 프로덕션 중단을 진단하고 해결하기 위한 즉각적인 지침을 받으세요.

Kubernetes 클러스터 디버깅

Kubernetes 환경에서 파드 실패, 네트워킹 문제, 서비스 메시 문제 및 리소스 제약 문제를 해결합니다.

성능 최적화

로그 분석, 분산 추적 상관 관계 및 시스템 프로파일링 권장 사항을 통해 성능 병목 현상을 식별합니다.

جرّب هذه الموجهات

기본 인시던트 트라이징
프로덕션 서비스가 [문제 설명: 높은 지연/오류/중단]을 겪고 있습니다. [사용 가능한 데이터 설명: X의 로그, Y의 메트릭]가 있습니다. 근본 원인을 진단하는 것을 도와주세요.
Kubernetes 파드 디버깅
[CrashLoopBackOff/실행 중 상태] Kubernetes 파드가 있으며 다음 이벤트가 있습니다: [kubectl describe 출력 붙여넣기]. 로그에 다음과 같습니다: [관련 로그 붙여넣기]. 무엇을 조사해야 합니까?
로그 분석 요청
[ELK/Loki/클라우드 로그]에서 다음 오류 패턴이 보입니다: [오류 메시지 및 타임스탬프 붙여넣기]. 오류가 [언제] 시작되었습니다. 이 로그를 상관시키고 근본 원인을 식별하는 것을 도와주세요.
사후 분석

أفضل الممارسات

  • 잘못된 진단을 피하기 위해 가설을 세우기 전에 항상 로그, 메트릭 및 시스템 상태를 수집하세요
  • 가장 간단한 설명으로 시작하고 복잡한 원인은 배제된 경우에만 진행하세요
  • 사후 분석 및 지식 공유를 위해 모든 조사 단계와 결과를 문서화하세요

تجنب

  • 제어된 환경에서 먼저 문제를 재현하지 않고 프로덕션 시스템에 변경を加える
  • 기본 문제와 관련 없는 것처럼 보이는 오류 메시지 및 증상을 무시하는
  • 증상에 집중하고 근본 원인이 아닌 임시 해결책에 의존하여 나중에 실패하는

الأسئلة المتكررة

이 스킬이 서버에서 명령어를 실행할 수 있나요?
아니요. 이것은 지침과 권장 사항을 제공하는 프롬프트 기반 스킬입니다. 모든 명령어는 직접 실행해야 합니다.
이 스킬이 지원하는 관측 플랫폼은 무엇인가요?
ELK 스택, Loki/Grafana, DataDog, New Relic, Jaeger, Zipkin, Prometheus 및 OpenTelemetry 등을 지원합니다.
보안 인시던트 대응에 이 스킬을 사용할 수 있나요?
네. 이 스킬에는 인증 디버깅, 인증서 문제 및 보안 로그 분석에 대한 지침이 포함되어 있습니다.
이 스킬이 AWS 및 Azure 같은 클라우드 플랫폼에서 작동하나요?
네. AWS CloudWatch, Azure Monitor, GCP Cloud Logging 및 멀티클라우드 문제 해결 시나리오를 다룹니다.
이 스킬이 Kubernetes 디버깅을 어떻게 처리하나요?
kubectl 명령어, 파드 문제 해결, 서비스 메시 네트워킹 및 스토리지 문제에 대한 지침을 제공합니다.
이 스킬이 CI/CD 파이프라인 문제에 도움이 될 수 있나요?
네. 빌드 실패, 배포 문제, GitOps 문제 및 파이프라인 최적화를 다룹니다.

تفاصيل المطور

بنية الملفات

📄 SKILL.md