🔧

devops-troubleshooter

Name: devops-troubleshooter
Author: sickn33

آمن

تشخيص حوادث الإنتاج بسرعة

تشخيص حوادث الإنتاج وحلها بسرعة باستخدام التصحيح الموجه بالذكاء الاصطناعي، وتحليل السجلات، ومنهجيات استكشاف الأخطاء وإصلاحها منهجية.

يدعم: Claude Codex Code(CC)

📊 71 كافٍ

تنزيل ZIP المهارة

رفع في Claude

اذهب إلى Settings → Capabilities → Skills → Upload skill

فعّل وابدأ الاستخدام

اختبرها

استخدام "devops-troubleshooter". My Kubernetes pods are getting OOMKilled frequently. Memory limits are set to 512Mi but the application uses Java.

النتيجة المتوقعة:

This is a common Java on Kubernetes issue. JVM heap memory is only part of the memory footprint. Here's my assessment:

**Immediate Actions:**
1. Check actual memory usage: `kubectl top pods`
2. Review JVM flags: Ensure -Xmx is set appropriately (typically 50-75% of container limit)
3. Consider setting JVM memory to match container limits using Kubernetes downward API

**Root Cause:** Java process uses heap + metaspace + thread stacks + native memory. A 512Mi limit with default JVM settings will cause OOMKills.

**Recommended Fix:**
```yaml
resources:
limits:
memory: "1Gi"
env:
- name: JAVA_OPTS
value: "-XX:MaxRAMPercentage=75.0 -XX:+UseG1GC"
```

**Prevention:** Add memory utilization alerts at 80% threshold.

استخدام "devops-troubleshooter". We are seeing intermittent 504 errors from our load balancer. The backend services appear healthy.

النتيجة المتوقعة:

This could be caused by several factors. Let me guide you through the troubleshooting steps:

**Immediate Investigation:**
1. Check backend response times: `curl -w '%{time_total}' http://backend/health`
2. Review load balancer access logs for timing patterns
3. Check for connection queue buildup

**Common Causes:**
- Backend taking too long to respond (check for slow database queries)
- Idle timeout settings too aggressive
- Keep-alive misconfigurations between load balancer and backends
- TLS handshake delays
- Health checks interfering with traffic

**Next Steps:**
1. Enable detailed logging on the load balancer
2. Add custom metrics for backend latency percentiles
3. Check if the issue correlates with specific request patterns or times

Would you like me to help investigate any of these specific areas?

التدقيق الأمني

آمن

v1 • 2/24/2026

Prompt-only skill with no executable code. Static analysis scanned 0 files (0 lines) and detected 0 security issues. This is a pure text-based skill that provides debugging guidance through structured prompts. No risk factors present.

الملفات التي تم فحصها

الأسطر التي تم تحليلها

النتائج

إجمالي عمليات التدقيق

لا توجد مشكلات أمنية

تم تدقيقه بواسطة: claude

درجة الجودة

الهندسة المعمارية

100

قابلية الصيانة

المحتوى

المجتمع

100

الأمان

100

الامتثال للمواصفات

ماذا يمكنك بناءه

الاستجابة لحوادث الإنتاج

احصل على إرشادات فورية لتشخيص حوادث الإنتاج وحلها، من التقييم الأولي حتى تحليل السبب الجذري.

تصحيح مجموعة Kubernetes

استكشف أخطاء فشل الشبكات ومشاكل شبكة الخدمة وقيود الموارد في بيئات Kubernetes.

تحسين الأداء

تحديد اختناقات الأداء من خلال تحليل السجلات وربط التتبع الموزع وتوصيات تحليل أداء النظام.

جرّب هذه الموجهات

فرز الحوادث الأساسي

تواجه خدمتي في الإنتاج [وصف المشكلة: latency عالي/أخطاء/انقطاع]. لدي [وصف البيانات المتاحة: سجلات من X، مقاييس من Y]. ساعدني في تشخيص السبب الجذري.

تصحيح وحدة Kubernetes

لدي وحدة Kubernetes في حالة [CrashLoopBackOff/Running] مع الأحداث التالية: [الصق مخرجات kubectl describe]. السجلات تظهر: [الصق السجلات ذات الصلة]. ما الذي يجب أن أفحصه؟

طلب تحليل السجلات

تحليل ما بعد الحادث

كان لدينا حادث [وصف الحادث]. الجدول الزمني: [الصق الجدول الزمني]. الأنظمة المتأثرة: [قائمة]. ما المشاكل النظامية التي ساهمت في هذا الفشل وكيف يمكننا منع تكراره؟

أفضل الممارسات

احصل دائماً على السجلات والمقاييس وحالة النظام قبل تكوين فرضيات لتجنب التشخيص الخاطئ
ابدأ بأبسط تفسير وتقدم إلى الأسباب المعقدة فقط عند استبعاد البسط
وثق جميع خطوات التحقيق والنتائج للمشاركة في المعرفة

تجنب

إجراء تغييرات على أنظمة الإنتاج دون إعادة إنتاج المشكلة أولاً في بيئة مضبوطة
تجاهل رسائل الخطأ والأعراض التي تبدو غير مرتبطة بالمشكلة الرئيسية
التركيز على الأعراض بدلاً من السبب الجذري، مما يؤدي إلى إصلاحات مؤقتة تفشل لاحقاً

الأسئلة المتكررة

هل يمكن لهذه المهارة تنفيذ أوامر على خوادمي؟

لا. هذه مهارة قائمة على الأوامر توفر التوصيات والإرشادات. يجب عليك تنفيذ أي أوامر بنفسك.

ما منصات المراقبة التي تدعمها هذه المهارة؟

تدعم ELK Stack وLoki/Grafana وDataDog وNew Relic وJaeger وZipkin وPrometheus وOpenTelemetry من بين آخرين.

هل يمكنني استخدام هذه المهارة للاستجابة لحوادث الأمان؟

نعم. تتضمن المهارة إرشادات لتصحيح مصادقة الشهادات وتحليل سجلات الأمان.

هل تعمل هذه المهارة مع المنصات السحابية مثل AWS وAzure؟

نعم. تغطي AWS CloudWatch وAzure Monitor وGCP Cloud Logging وسيناريوهات استكشاف الأخطاء متعددة السحابة.

كيف تتعامل هذه المهارة مع تصحيح Kubernetes؟

توفر إرشادات لأوامر kubectl واستكشاف مشاكل الوحدة وخدمة الشبكة والشبكات ومشكلات التخزين.

هل يمكن لهذه المهارة المساعدة في مشاكل خطوط CI/CD؟

نعم. تغطي فشل البناء ومشاكل النشر ومشاكل GitOps وتحسين خطوط الإنتاج.

تفاصيل المطور

المؤلف

sickn33

الترخيص

MIT

المستودع

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/devops-troubleshooter

مرجع

main

بنية الملفات

📄 SKILL.md