aiops
為基礎設施實施智慧 AIOps 策略
AIOps 技能可協助您建立自動化的事件回應、異常偵測和自我修復基礎設施。這些模式可與任何監控平台搭配使用,以縮短 MTTR 並提高可靠性。
تنزيل ZIP المهارة
رفع في Claude
اذهب إلى Settings → Capabilities → Skills → Upload skill
فعّل وابدأ الاستخدام
اختبرها
استخدام "aiops". 幫我分析一個關於我們主要資料庫服務記憶體使用量過高的高嚴重性警報
النتيجة المتوقعة:
- 警報分類:resource_exhaustion - 偵測到記憶體壓力
- 建議動作:1) 擴展副本 20%,2) 通知 devops 頻道,3) 檢查近期部署中的記憶體洩漏
- 風險評估:影響高,自動修復是安全的
- 後續行動:如果趨勢持續,安排容量審查
استخدام "aiops". 為一個持續健康檢查失敗的服務建立自動化修復策略
النتيجة المتوقعة:
- 策略名稱:health_check_remediation
- 觸發條件:2 分鐘內連續 3 次健康檢查失敗
- 動作順序:1) 重啟部署,2) 驗證 pod 正在執行,3) 如果重啟失敗則發送通知
- 安全閘道:檢查叢集 CPU < 80%,驗證無正在進行的部署
- 升級:如果修復嘗試 2 次後失敗,則警報通知值班人員
استخدام "aiops". 如何為我的 API 回應時間設定異常偵測
النتيجة المتوقعة:
- 資料來源:配置 PrometheusDataSource 以查詢 http_request_duration_seconds 直方圖
- 模型類型:隔離森林用於多維異常偵測
- 訓練窗口:使用過去 7 天的歷史資料
- 警報閾值:標記 z-score > 3.0 的異常
- 動作:偵測到異常時觸發調查工作流程
التدقيق الأمني
مخاطر منخفضةThis is a documentation-only skill containing code patterns for AIOps implementation. Static findings are false positives: C2 keywords are standard DevOps terminology, weak crypto flags are incorrect, subprocess patterns are legitimate kubectl automation, and API key references are placeholder parameter names. Prior AI audit confirmed low risk with no file system access beyond normal execution.
عوامل الخطر
⚙️ الأوامر الخارجية (1)
🌐 الوصول إلى الشبكة (1)
درجة الجودة
ماذا يمكنك بناءه
自動化事件回應
建立自動化的操作手冊,可在無需人工介入的情況下偵測、分類和修復問題
部署自我修復系統
建立可自動重啟服務、擴展資源或隔離故障的策略
實施統一可觀測性
從多個來源建立跨指標、日誌和追蹤的儀表板和警報
جرّب هذه الموجهات
幫我分析這個警報。嚴重程度是 [critical|high|medium|low],服務是 [name],訊息是:[alert message]。我們的回應計劃應該包括什麼?
我們在過去 [time period] 的 [CPU|memory|storage] 使用量一直 [describe trend]。使用 AIOps 模式,幫我建立容量預測模型和擴展建議。
我需要為 [specific failure type] 建立自動化修復動作。遵循 AIOps 最佳實踐,動作順序、安全檢查和回滾計劃應該包括什麼?
我們遇到了影響 [service name] 的事件。幫我關聯指標、日誌和追蹤,使用 AIOps 技能中的可觀測性模式來識別根本原因。
أفضل الممارسات
- 在生產環境中啟用自動執行之前,請務必為自動化動作實施試運行模式
- 對所有自動化修復動作使用熔斷器和超時限制
- 即使是低嚴重性的自動化回應,也要保持人工升級路徑
تجنب
- 絕不執行沒有條件檢查和預先批准保護措施的自動化
- 避免硬編碼憑證 - 使用密碼管理和環境變數
- 在未經徹底測試的情況下,不要為關鍵服務啟用自動修復