المهارات observability-engineer

📊

observability-engineer

Name: observability-engineer
Author: sickn33

آمن

تصميم أنظمة قابلية الملاحظة للإنتاج

تساعدك هذه المهارة على تصميم وتنفيذ أنظمة شاملة للمراقبة والتسجيل والتتبع للتطبيقات المؤسسية. توفر إرشادات خبيرة حول إدارة SLI/SLO، والتتبع الموزع، وسير عمل الاستجابة للحوادث.

يدعم: Claude Codex Code(CC)

📊 70 كافٍ

تنزيل ZIP المهارة

رفع في Claude

اذهب إلى Settings → Capabilities → Skills → Upload skill

فعّل وابدأ الاستخدام

اختبرها

استخدام "observability-engineer". صمم استراتيجية مراقبة لخدمة الدفع الخاصة بنا التي تتعامل مع 100K طلب يوميًا

النتيجة المتوقعة:

جمع المقاييس: انشر Prometheus مع قواعد التسجيل لـ throughput الطلبات ونسب الاستجابة المئوية (p50, p95, p99) ومعدلات الأخطاء حسب النوع
لوحات المعلومات الرئيسية: أنشئ نظرة عامة تنفيذية ووقت حقيقي تشغيلي وعروض تفصيلية لاستكشاف الأخطاء في Grafana
التنبيهات: اضبط تنبيهات لـ p99 latency > 2s وerror rate > 1% وcheckout success rate < 99%
التتبع: نفذ OpenTelemetry auto-instrumentation مع أخذ عينات التتبع بنسبة 10% والتتبع الكامل للأخطاء
التسجيل: سجلات JSON مهيكلة مع order ID وuser ID وlatency للارتباط مع التتبعات

استخدام "observability-engineer". حدد SLOs لـ payment API الخاص بنا مع هدف توافر 99.9%

النتيجة المتوقعة:

تعريف SLI: طلبات الدفع الناجحة / إجمالي طلبات الدفع، مقاسة على نوافذ 5 دقائق
SLO: معدل نجاح 99.9% على نافذة متحركة لمدة 30 يومًا = 43.8 دقيقة ميزانية أخطاء مسموح بها
تنبيهات ميزانية الأخطاء: تنبيه معدل الحرق عند عتبات 2x (87.6 دقيقة/يوم) و10x (438 دقيقة/يوم)
تتبع الاستهلاك: لوحة معلومات تعرض ميزانية الأخطاء المتبقية ومعدل الحرق اليومي وتاريخ الاختراق المتوقع

التدقيق الأمني

آمن

v1 • 2/24/2026

Prompt-only skill with no executable code. Static analysis scanned 0 files (0 lines) and detected 0 security issues. The skill provides observability engineering guidance through text prompts only. No dangerous patterns, no network requests, no file system access, and no external commands detected. Content describes legitimate monitoring, logging, and tracing system design.

الملفات التي تم فحصها

الأسطر التي تم تحليلها

النتائج

إجمالي عمليات التدقيق

لا توجد مشكلات أمنية

تم تدقيقه بواسطة: claude

درجة الجودة

الهندسة المعمارية

100

قابلية الصيانة

المحتوى

المجتمع

100

الأمان

الامتثال للمواصفات

ماذا يمكنك بناءه

تصميم بنية مراقبة الخدمات الصغيرة

إنشاء استراتيجية مراقبة شاملة لنظام خدمات صغيرة يحتوي على أكثر من 50 خدمة، بما في ذلك جمع المقاييس والتتبع الموزع والتنبيهات.

تأسيس إطار SLI/SLO

تحديد مؤشرات مستوى الخدمة وأهداف مستوى الخدمة وميزانيات الأخطاء لخدمات API مع أهداف توافر 99.9% ومراقبة معدل الحرق.

تطبيق التتبع الموزع

إعداد التتبع الموزع لمنصة تجارة إلكترونية لتحديد اختناقات زمن الاستجابة وإجراء تحليل السبب الجذري عبر حدود الخدمة.

جرّب هذه الموجهات

تصميم المراقبة الأساسي

صمم استراتيجية مراقبة لـ [نوع الخدمة] الذي يعالج [حجم حركة المرور] طلبات يوميًا. ضمن جمع المقاييس ومنهجية التسجيل وتوصيات التنبيه.

تحديد SLI/SLO

ساعدني في تحديد SLIs وSLOs لـ [اسم الخدمة] API مع [هدف التوافر]% توافر. ضمن حساب ميزانية الأخطاء وتنبيهات معدل الحرق.

إعداد الاستجابة للحوادث

أنشئ سير عمل استجابة للحوادث لـ [نوع الحادث] يتضمن توجيه التنبيهات وإجراءات التصعيد وتوصيات كتب التشغيل وعملية تحليل ما بعد الحادث.

تحسين التكلفة

حلل إعداد قابلية المراقبة الحالي ووصي باستراتيجيات تحسين التكلفة. نستخدم حاليًا [الأدوات] ونولد [الحجم] من بيانات القياس عن بعد يوميًا.

أفضل الممارسات

ابدأ بنتائج الأعمال - حدد ما تعنيه الخدمة الموثوقة للمستخدمين قبل اختيار المقاييس
نفذ التجهيز التدريجي: المقاييس أولاً للرؤية، ثم التتبعات للتصحيح، ثم السجلات للتفاصيل
نبه على الأعراض، وليس الأسباب - أخطِر عندما يتأثر المستخدمون، وليس عندما تفشل المكونات الداخلية

تجنب

إنشاء تنبيهات لكل فشل محتمل - يؤدي إلى إرهاق التنبيه والإشعارات المتجاهلة
مراقبة كل شيء بدون هدف - يزيد التكلفة ويقلل جودة الإشارة
تحديد SLOs بشكل ضيق جدًا - يسبب ضغطًا غير ضروري واستنفاد الميزانية

الأسئلة المتكررة

ما الأدوات التي تدعمها هذه المهارة؟

تغطي المهارة أدوات المراقبة الرئيسية بما في ذلك Prometheus وGrafana وJaeger وZipkin وELK Stack وLoki وDataDog وNew Relic وCloudWatch وOpenTelemetry وPagerDuty والمراقبة السحابية الأصلية عبر AWS وAzure وGCP.

هل يمكن لهذه المهارة نشر بنية المراقبة التحتية؟

لا. توفر هذه المهارة إرشادات التصميم وتوصيات التكوين وخطط التنفيذ. النشر الفعلي يتطلب أدوات بنية تحتية منفصلة مثل Terraform أو Kubernetes.

كيف أبدأ مع قابلية الملاحظة؟

ابدأ بتحديد رحلات المستخدم الحرجة الخاصة بك وتحديد ما تعنيه الخدمة الموثوقة. ثم جهز للإشارات الذهبية: latency وtraffic وerrors وsaturation. أضف التتبعات والسجلات بشكل تدريجي.

ما الفرق بين المراقبة وقابلية الملاحظة؟

المراقبة تخبرك عندما يكون هناك خطأ. قابلية الملاحظة تساعدك على فهم السبب. استخدم المقاييس ولوحات المعلومات للمراقبة، والتتبعات للتصحيح، والسجلات للتحقيق العميق.

كيف أقلل ضوضاء التنبيهات؟

استخدم تجميع التنبيهات وإلغاء التكرار وقواعد القمع. نبه على الأعراض التي تؤثر على المستخدم بدلاً من فشل المكونات الداخلية. نفذ كتب تشغيل لكل تنبيه لتمكين الفرز السريع.

ما هي SLIs وSLOs وميزانيات الأخطاء؟

SLIs تقيس سلوك خدمتك (مثل معدل نجاح الطلبات). SLOs هي قيم SLI المستهدفة (مثل 99.9% نجاح). ميزانيات الأخطاء هي وقت الفشل المسموح به المتبقي. معًا تمكن قرارات الموثوقية القائمة على البيانات.

تفاصيل المطور

المؤلف

sickn33

الترخيص

MIT

المستودع

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/observability-engineer

مرجع

main

بنية الملفات

📄 SKILL.md