observability-engineer
تصميم أنظمة قابلية الملاحظة للإنتاج
تساعدك هذه المهارة على تصميم وتنفيذ أنظمة شاملة للمراقبة والتسجيل والتتبع للتطبيقات المؤسسية. توفر إرشادات خبيرة حول إدارة SLI/SLO، والتتبع الموزع، وسير عمل الاستجابة للحوادث.
تنزيل ZIP المهارة
رفع في Claude
اذهب إلى Settings → Capabilities → Skills → Upload skill
فعّل وابدأ الاستخدام
اختبرها
استخدام "observability-engineer". صمم استراتيجية مراقبة لخدمة الدفع الخاصة بنا التي تتعامل مع 100K طلب يوميًا
النتيجة المتوقعة:
- جمع المقاييس: انشر Prometheus مع قواعد التسجيل لـ throughput الطلبات ونسب الاستجابة المئوية (p50, p95, p99) ومعدلات الأخطاء حسب النوع
- لوحات المعلومات الرئيسية: أنشئ نظرة عامة تنفيذية ووقت حقيقي تشغيلي وعروض تفصيلية لاستكشاف الأخطاء في Grafana
- التنبيهات: اضبط تنبيهات لـ p99 latency > 2s وerror rate > 1% وcheckout success rate < 99%
- التتبع: نفذ OpenTelemetry auto-instrumentation مع أخذ عينات التتبع بنسبة 10% والتتبع الكامل للأخطاء
- التسجيل: سجلات JSON مهيكلة مع order ID وuser ID وlatency للارتباط مع التتبعات
استخدام "observability-engineer". حدد SLOs لـ payment API الخاص بنا مع هدف توافر 99.9%
النتيجة المتوقعة:
- تعريف SLI: طلبات الدفع الناجحة / إجمالي طلبات الدفع، مقاسة على نوافذ 5 دقائق
- SLO: معدل نجاح 99.9% على نافذة متحركة لمدة 30 يومًا = 43.8 دقيقة ميزانية أخطاء مسموح بها
- تنبيهات ميزانية الأخطاء: تنبيه معدل الحرق عند عتبات 2x (87.6 دقيقة/يوم) و10x (438 دقيقة/يوم)
- تتبع الاستهلاك: لوحة معلومات تعرض ميزانية الأخطاء المتبقية ومعدل الحرق اليومي وتاريخ الاختراق المتوقع
التدقيق الأمني
آمنPrompt-only skill with no executable code. Static analysis scanned 0 files (0 lines) and detected 0 security issues. The skill provides observability engineering guidance through text prompts only. No dangerous patterns, no network requests, no file system access, and no external commands detected. Content describes legitimate monitoring, logging, and tracing system design.
درجة الجودة
ماذا يمكنك بناءه
تصميم بنية مراقبة الخدمات الصغيرة
إنشاء استراتيجية مراقبة شاملة لنظام خدمات صغيرة يحتوي على أكثر من 50 خدمة، بما في ذلك جمع المقاييس والتتبع الموزع والتنبيهات.
تأسيس إطار SLI/SLO
تحديد مؤشرات مستوى الخدمة وأهداف مستوى الخدمة وميزانيات الأخطاء لخدمات API مع أهداف توافر 99.9% ومراقبة معدل الحرق.
تطبيق التتبع الموزع
إعداد التتبع الموزع لمنصة تجارة إلكترونية لتحديد اختناقات زمن الاستجابة وإجراء تحليل السبب الجذري عبر حدود الخدمة.
جرّب هذه الموجهات
صمم استراتيجية مراقبة لـ [نوع الخدمة] الذي يعالج [حجم حركة المرور] طلبات يوميًا. ضمن جمع المقاييس ومنهجية التسجيل وتوصيات التنبيه.
ساعدني في تحديد SLIs وSLOs لـ [اسم الخدمة] API مع [هدف التوافر]% توافر. ضمن حساب ميزانية الأخطاء وتنبيهات معدل الحرق.
أنشئ سير عمل استجابة للحوادث لـ [نوع الحادث] يتضمن توجيه التنبيهات وإجراءات التصعيد وتوصيات كتب التشغيل وعملية تحليل ما بعد الحادث.
حلل إعداد قابلية المراقبة الحالي ووصي باستراتيجيات تحسين التكلفة. نستخدم حاليًا [الأدوات] ونولد [الحجم] من بيانات القياس عن بعد يوميًا.
أفضل الممارسات
- ابدأ بنتائج الأعمال - حدد ما تعنيه الخدمة الموثوقة للمستخدمين قبل اختيار المقاييس
- نفذ التجهيز التدريجي: المقاييس أولاً للرؤية، ثم التتبعات للتصحيح، ثم السجلات للتفاصيل
- نبه على الأعراض، وليس الأسباب - أخطِر عندما يتأثر المستخدمون، وليس عندما تفشل المكونات الداخلية
تجنب
- إنشاء تنبيهات لكل فشل محتمل - يؤدي إلى إرهاق التنبيه والإشعارات المتجاهلة
- مراقبة كل شيء بدون هدف - يزيد التكلفة ويقلل جودة الإشارة
- تحديد SLOs بشكل ضيق جدًا - يسبب ضغطًا غير ضروري واستنفاد الميزانية
الأسئلة المتكررة
ما الأدوات التي تدعمها هذه المهارة؟
هل يمكن لهذه المهارة نشر بنية المراقبة التحتية؟
كيف أبدأ مع قابلية الملاحظة؟
ما الفرق بين المراقبة وقابلية الملاحظة؟
كيف أقلل ضوضاء التنبيهات؟
ما هي SLIs وSLOs وميزانيات الأخطاء؟
تفاصيل المطور
المؤلف
sickn33الترخيص
MIT
المستودع
https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/observability-engineerمرجع
main
بنية الملفات
📄 SKILL.md