incident-response-incident-response
تنسيق سير عمل الاستجابة للحوادث
توفر هذه المهارة سير عمل منظم متعدد المراحل للاستجابة للحوادث لوكلاء الذكاء الاصطناعي، مما يمكّن من الكشف السريع والتحقيق والحل وتوثيق ما بعد الحادث وفقًا لمبادئ SRE الحديثة.
下载技能 ZIP
在 Claude 中上传
前往 设置 → 功能 → 技能 → 上传技能
开启并开始使用
测试它
正在使用“incident-response-incident-response”。 Use incident-response skill to triage: API service returning 500 errors for 30% of requests
预期结果:
Severity: P1/SEV-2 (Major degradation)
Affected Services: API Gateway, User Service
User Impact: 30% failed requests, primarily authenticated users
Initial Mitigation:
1. Enable circuit breaker for User Service
2. Check for recent deployments to roll back
3. Scale up API Gateway capacity
Incident Commander: [Assign]
Technical Lead: [Assign]
Communications Lead: [Assign]
正在使用“incident-response-incident-response”。 Use incident-response skill to create postmortem for yesterday's database outage
预期结果:
## Blameless Postmortem - Database Outage
### Timeline
- 14:00 - Alert fired: Database CPU at 99%
- 14:05 - Incident declared P1
- 14:15 - Rollback attempted
- 14:30 - Root cause: Connection pool exhaustion
- 14:45 - Fix deployed
- 15:00 - Incident resolved
### Root Cause
Migration script created 10x normal connections
### What Went Well
- Fast detection (2 min)
- Clear communication
### Action Items
1. Add connection pool monitoring - Owner: Jane - Due: Feb 28
2. Update runbook for migrations - Owner: Bob - Due: Mar 1
安全审计
安全All 11 static findings are false positives. The skill is a legitimate incident response workflow guide (markdown documentation). The 'external_commands' detection refers to markdown backticks for file paths, not shell execution. The 'weak cryptographic algorithm' and 'system/network reconnaissance' detections are scanner misinterpretations of incident response terminology (severity levels, observability analysis, root cause analysis). No actual security risks present.
高风险问题 (3)
质量评分
你能构建什么
قائد فريق SRE يدير توقفًا إنتاجيًا
استخدم سير العمل الكامل لتنسيق استجابة الفريق، والحفاظ على هيكل قيادة الحادث، وضمان التواصل السليم خلال حادث sev-1.
مهندس DevOps يجري مراجعة ما بعد الحادث
استخدم المرحلة 5 (ما بعد الحادث والوقاية) لتوثيق الجدول الزمني للحادث، وتحديد الأسباب الجذرية، وإنشاء عناصر عمل لتحسينات المراقبة.
مهندس عند الاتصال يجري التصنيف الأولي
استخدم المرحلة 1 (الكشف والتصنيف) لتصنيف شدة الحادث بسرعة، وتقييم التأثير، وتحديد خطوات التخفيف الأولية.
试试这些提示
Use the incident-response skill to triage this alert: [DESCRIBE ALERT]. Determine severity level (P0-P3), identify affected services, assess user impact, and recommend initial mitigation actions.
Use the incident-response skill to investigate this incident: [INCIDENT DESCRIPTION]. Conduct deep debugging, security assessment, and performance analysis to identify root cause.
Use the incident-response skill to coordinate this emergency fix: [INCIDENT AND FIX DESCRIPTION]. Execute deployment with validation, monitoring, and rollback readiness.
Use the incident-response skill to conduct a blameless postmortem for: [INCIDENT SUMMARY]. Document timeline, root cause, what went well, what could improve, and create action items.
最佳实践
- تعيين قائد حادث واضح وأدوار في غضون أول 5 دقائق من أي حادث P0/P1
- تحديث تواصل أصحاب المصلحة كل 15-30 دقيقة خلال الحوادث النشطة
- إكمال ما بعد الحادث بدون لوم في غضون 48 ساعة مع عناصر عمل محددة وقابلة للتعيين
避免
- تخطي تصنيف الشدة والانتقال مباشرة إلى التصحيح دون فهم التأثير
- لوم الأفراد في تقارير ما بعد الحادث بدلاً من التركيز على تحسينات النظام
- تأخير التواصل مع أصحاب المصلحة حتى يتم الحل الكامل