وازِن بين الموثوقية وسرعة تطوير الميزات باستخدام أهداف SLO قابلة للقياس وميزانيات الأخطاء. توقف عن الجدل حول الموثوقية وابدأ في قياسها باستخدام ممارسات SRE المعيارية في الصناعة.
تنزيل ZIP المهارة
رفع في Claude
اذهب إلى Settings → Capabilities → Skills → Upload skill
فعّل وابدأ الاستخدام
اختبرها
استخدام "slo-implementation". ساعدني في تحديد SLIs و SLOs لخدمة API الخاصة بي. أحتاج إلى أهداف التوافر وزمن الاستجابة.
النتيجة المتوقعة:
إليك SLIs الموصى بها لـ API الخاص بك:
SLI التوافر:
- الطلبات الناجحة / إجمالي الطلبات
- الهدف: 99.9% (يسمح بـ 43.2 دقيقة توقف شهريًا)
- PromQL: sum(rate(http_requests_total{status!~'5..'}[28d])) / sum(rate(http_requests_total[28d]))
SLI زمن الاستجابة (p95 < 500ms):
- الطلبات تحت العتبة / إجمالي الطلبات
- الهدف: 99% (1% من الطلبات يمكن أن تكون بطيئة)
- PromQL: sum(rate(http_request_duration_seconds_bucket{le='0.5'}[28d])) / sum(rate(http_request_duration_seconds_count[28d]))
ميزانية الأخطاء:
- ميزانية 0.1% = 43.2 دقيقة/شهر
- نفذ تنبيهات معدل الحرق للكشف عند استهلاك الميزانية بسرعة كبيرة
استخدام "slo-implementation". أنشئ قواعد تنبيه Prometheus للكشف عن معدل الحرق متعدد النوافذ.
النتيجة المتوقعة:
قواعد تنبيه معدل الحرق متعدد النوافذ:
تنبيه الحرق السريع (حرج):
- النافذة: ساعة واحدة وتأكيد 5 دقائق
- العتبة: معدل حرق 14.4x
- يتم التشغيل عند: استهلاك 2% من ميزانية الأخطاء في ساعة واحدة
- الإجراء: تنبيه المهندس في نوبة العمل فورًا
تنبيه الحرق البطيء (تحذير):
- النافذة: 6 ساعات وتأكيد 30 دقيقة
- العتبة: معدل حرق 6x
- يتم التشغيل عند: استهلاك 5% من ميزانية الأخطاء في 6 ساعات
- الإجراء: إنشاء تذكرة لليوم العمل التالي
نفاد ميزانية الأخطاء (حرج):
- التشغيل: ميزانية الأخطاء المتبقية < 0%
- المدة: مستمر لمدة 5 دقائق
- الإجراء: تجميد الميزات، اجتماع عام للموثوقية
استخدام "slo-implementation". صمم سياسة ميزانية أخطاء لهدف SLO بنسبة 99.9%.
النتيجة المتوقعة:
سياسة ميزانية الأخطاء لـ SLO بنسبة 99.9%:
الميزانية: 0.1% = 43.2 دقيقة شهريًا
عند 100% من الميزانية المتبقية:
- سرعة التطوير طبيعية
- جميع الميزات مسموح بنشرها
عند 50% من الميزانية المتبقية:
- تأجيل التغييرات غير الأساسية
- تتطلب اختبارات إضافية للإصدارات
- زيادة تغطية المراقبة
عند 10% من الميزانية المتبقية:
- تجميد الميزات غير الحرجة
- إصدارات الأمان والإصلاحات العاجلة فقط
- اجتماعات وقوف يومية للموثوقية
عند 0% من الميزانية المتبقية:
- تجميد كامل للميزات
- التركيز 100% على تحسينات الموثوقية
- لا إصدارات دون موافقة SRE
- تحليل السبب الجذري مطلوب
التدقيق الأمني
آمنStatic analysis detected 35 potential security issues, all of which are false positives. The flagged 'Ruby/shell backtick execution' patterns are Markdown code formatting (backticks) used for PromQL queries and YAML examples. The 'weak cryptographic algorithm' flags are documentation text and annotations, not actual encryption code. This skill contains only documentation with no executable code, network operations, or security vulnerabilities.
مشكلات منخفضة المخاطر (2)
درجة الجودة
ماذا يمكنك بناءه
إنشاء خط أساس للموثوقية
تحديد SLIs و SLOs الأولية لخدمة مصغرة جديدة لوضع أهداف موثوقية قابلة للقياس وإنشاء تنبيهات تلتقط المشاكل الفعلية دون إرهاق الإنذارات الكاذبة.
تنفيذ حوكمة ميزانية الأخطاء
إنشاء سياسات ميزانية الأخطاء التي تجمد تلقائيًا عمليات النشر الخطرة عند تدهور الموثوقية، مما يساعد على الموازنة بين سرعة الميزات ومتطلبات الاستقرار.
تقليل إرهاق التنبيهات
استبدال تنبيهات العتبة الهشة بتنبيهات معدل الحرق متعددة النوافذ التي يتم تشغيلها فقط عند تدهور الموثوقية بشكل كبير، مما يقلل ضوضاء الإشعارات بنسبة 80%.
جرّب هذه الموجهات
ساعدني في تحديد SLIs و SLOs لخدمة API الخاصة بي. أحتاج إلى أهداف التوافر وزمن الاستجابة.
صمم سياسة ميزانية أخطاء لهدف SLO بنسبة 99.9%. حدد الإجراءات عند 100% و50% و10% و0% من الميزانية المتبقية.
أنشئ قواعد تنبيه Prometheus للكشف عن معدل الحرق متعدد النوافذ. استخدم نوافذ الحرق السريع (1 ساعة/5 دقائق) والحرق البطيء (6 ساعات/30 دقيقة).
حلل بيانات امتثال SLO الحالية لدي. اعرض ميزانية الأخطاء المتبقية واتجاهات معدل الحرق وأوصِ بما إذا كان يجب تجميد إصدارات الميزات.
أفضل الممارسات
- ابدأ بـ SLIs المواجهة للمستخدم التي تقيس تجربة العميل مباشرة بدلاً من مقاييس الخلفية
- حدد أهداف SLO قابلة للتحقيق أقل قليلاً من الأداء الحالي للسماح بالتباين الطبيعي ومنع التنبيه المستمر
- استخدم تنبيهات معدل الحرق متعددة النوافذ (اجمع النوافذ القصيرة والطويلة) للقضاء على الإيجابيات الكاذبة من الارتفاعات العابرة
- راجع SLOs ربع سنويًا للتأكد من أنها لا تزال تعكس أولويات الأعمال واحتياجات المستخدمين الفعلية
تجنب
- تحديد أهداف SLO عند توافر 100% مما يلغي كل ميزانية الأخطاء ويمنع أي تطوير للميزات
- إنشاء تنبيهات على عتبات المقاييس الخام بدلاً من معدلات الحرق، مما يسبب إرهاق التنبيهات من التقلبات الطبيعية
- تحديد الكثير من SLIs مما يخفف التركيز ويجعل من المستحيل تحديد أولويات تحسينات الموثوقية
- تطبيق SLOs دون دعم تنفيذي لسياسات ميزانية الأخطاء، مما يجعل الحوكمة غير قابلة للتنفيذ