devops-troubleshooter
تشخيص حوادث الإنتاج بسرعة
تشخيص حوادث الإنتاج وحلها بسرعة باستخدام التصحيح الموجه بالذكاء الاصطناعي، وتحليل السجلات، ومنهجيات استكشاف الأخطاء وإصلاحها منهجية.
下载技能 ZIP
在 Claude 中上传
前往 设置 → 功能 → 技能 → 上传技能
开启并开始使用
测试它
正在使用“devops-troubleshooter”。 My Kubernetes pods are getting OOMKilled frequently. Memory limits are set to 512Mi but the application uses Java.
预期结果:
This is a common Java on Kubernetes issue. JVM heap memory is only part of the memory footprint. Here's my assessment:
**Immediate Actions:**
1. Check actual memory usage: `kubectl top pods`
2. Review JVM flags: Ensure -Xmx is set appropriately (typically 50-75% of container limit)
3. Consider setting JVM memory to match container limits using Kubernetes downward API
**Root Cause:** Java process uses heap + metaspace + thread stacks + native memory. A 512Mi limit with default JVM settings will cause OOMKills.
**Recommended Fix:**
```yaml
resources:
limits:
memory: "1Gi"
env:
- name: JAVA_OPTS
value: "-XX:MaxRAMPercentage=75.0 -XX:+UseG1GC"
```
**Prevention:** Add memory utilization alerts at 80% threshold.
正在使用“devops-troubleshooter”。 We are seeing intermittent 504 errors from our load balancer. The backend services appear healthy.
预期结果:
This could be caused by several factors. Let me guide you through the troubleshooting steps:
**Immediate Investigation:**
1. Check backend response times: `curl -w '%{time_total}' http://backend/health`
2. Review load balancer access logs for timing patterns
3. Check for connection queue buildup
**Common Causes:**
- Backend taking too long to respond (check for slow database queries)
- Idle timeout settings too aggressive
- Keep-alive misconfigurations between load balancer and backends
- TLS handshake delays
- Health checks interfering with traffic
**Next Steps:**
1. Enable detailed logging on the load balancer
2. Add custom metrics for backend latency percentiles
3. Check if the issue correlates with specific request patterns or times
Would you like me to help investigate any of these specific areas?
安全审计
安全Prompt-only skill with no executable code. Static analysis scanned 0 files (0 lines) and detected 0 security issues. This is a pure text-based skill that provides debugging guidance through structured prompts. No risk factors present.
质量评分
你能构建什么
الاستجابة لحوادث الإنتاج
احصل على إرشادات فورية لتشخيص حوادث الإنتاج وحلها، من التقييم الأولي حتى تحليل السبب الجذري.
تصحيح مجموعة Kubernetes
استكشف أخطاء فشل الشبكات ومشاكل شبكة الخدمة وقيود الموارد في بيئات Kubernetes.
تحسين الأداء
تحديد اختناقات الأداء من خلال تحليل السجلات وربط التتبع الموزع وتوصيات تحليل أداء النظام.
试试这些提示
تواجه خدمتي في الإنتاج [وصف المشكلة: latency عالي/أخطاء/انقطاع]. لدي [وصف البيانات المتاحة: سجلات من X، مقاييس من Y]. ساعدني في تشخيص السبب الجذري.
لدي وحدة Kubernetes في حالة [CrashLoopBackOff/Running] مع الأحداث التالية: [الصق مخرجات kubectl describe]. السجلات تظهر: [الصق السجلات ذات الصلة]. ما الذي يجب أن أفحصه؟
كان لدينا حادث [وصف الحادث]. الجدول الزمني: [الصق الجدول الزمني]. الأنظمة المتأثرة: [قائمة]. ما المشاكل النظامية التي ساهمت في هذا الفشل وكيف يمكننا منع تكراره؟
最佳实践
- احصل دائماً على السجلات والمقاييس وحالة النظام قبل تكوين فرضيات لتجنب التشخيص الخاطئ
- ابدأ بأبسط تفسير وتقدم إلى الأسباب المعقدة فقط عند استبعاد البسط
- وثق جميع خطوات التحقيق والنتائج للمشاركة في المعرفة
避免
- إجراء تغييرات على أنظمة الإنتاج دون إعادة إنتاج المشكلة أولاً في بيئة مضبوطة
- تجاهل رسائل الخطأ والأعراض التي تبدو غير مرتبطة بالمشكلة الرئيسية
- التركيز على الأعراض بدلاً من السبب الجذري، مما يؤدي إلى إصلاحات مؤقتة تفشل لاحقاً