🤖

aiops

مخاطر منخفضة ⚙️ الأوامر الخارجية🌐 الوصول إلى الشبكة

為基礎設施實施智慧 AIOps 策略

AIOps 技能可協助您建立自動化的事件回應、異常偵測和自我修復基礎設施。這些模式可與任何監控平台搭配使用,以縮短 MTTR 並提高可靠性。

يدعم: Claude Codex Code(CC)
⚠️ 65 ضعيف
1

تنزيل ZIP المهارة

2

رفع في Claude

اذهب إلى Settings → Capabilities → Skills → Upload skill

3

فعّل وابدأ الاستخدام

اختبرها

استخدام "aiops". 幫我分析一個關於我們主要資料庫服務記憶體使用量過高的高嚴重性警報

النتيجة المتوقعة:

  • 警報分類:resource_exhaustion - 偵測到記憶體壓力
  • 建議動作:1) 擴展副本 20%,2) 通知 devops 頻道,3) 檢查近期部署中的記憶體洩漏
  • 風險評估:影響高,自動修復是安全的
  • 後續行動:如果趨勢持續,安排容量審查

استخدام "aiops". 為一個持續健康檢查失敗的服務建立自動化修復策略

النتيجة المتوقعة:

  • 策略名稱:health_check_remediation
  • 觸發條件:2 分鐘內連續 3 次健康檢查失敗
  • 動作順序:1) 重啟部署,2) 驗證 pod 正在執行,3) 如果重啟失敗則發送通知
  • 安全閘道:檢查叢集 CPU < 80%,驗證無正在進行的部署
  • 升級:如果修復嘗試 2 次後失敗,則警報通知值班人員

استخدام "aiops". 如何為我的 API 回應時間設定異常偵測

النتيجة المتوقعة:

  • 資料來源:配置 PrometheusDataSource 以查詢 http_request_duration_seconds 直方圖
  • 模型類型:隔離森林用於多維異常偵測
  • 訓練窗口:使用過去 7 天的歷史資料
  • 警報閾值:標記 z-score > 3.0 的異常
  • 動作:偵測到異常時觸發調查工作流程

التدقيق الأمني

مخاطر منخفضة
v5 • 1/16/2026

This is a documentation-only skill containing code patterns for AIOps implementation. Static findings are false positives: C2 keywords are standard DevOps terminology, weak crypto flags are incorrect, subprocess patterns are legitimate kubectl automation, and API key references are placeholder parameter names. Prior AI audit confirmed low risk with no file system access beyond normal execution.

2
الملفات التي تم فحصها
2,077
الأسطر التي تم تحليلها
2
النتائج
5
إجمالي عمليات التدقيق

عوامل الخطر

⚙️ الأوامر الخارجية (1)
🌐 الوصول إلى الشبكة (1)
تم تدقيقه بواسطة: claude عرض سجل التدقيق →

درجة الجودة

38
الهندسة المعمارية
100
قابلية الصيانة
87
المحتوى
21
المجتمع
90
الأمان
70
الامتثال للمواصفات

ماذا يمكنك بناءه

自動化事件回應

建立自動化的操作手冊,可在無需人工介入的情況下偵測、分類和修復問題

部署自我修復系統

建立可自動重啟服務、擴展資源或隔離故障的策略

實施統一可觀測性

從多個來源建立跨指標、日誌和追蹤的儀表板和警報

جرّب هذه الموجهات

警報分級
幫我分析這個警報。嚴重程度是 [critical|high|medium|low],服務是 [name],訊息是:[alert message]。我們的回應計劃應該包括什麼?
容量規劃
我們在過去 [time period] 的 [CPU|memory|storage] 使用量一直 [describe trend]。使用 AIOps 模式,幫我建立容量預測模型和擴展建議。
建立自動化
我需要為 [specific failure type] 建立自動化修復動作。遵循 AIOps 最佳實踐,動作順序、安全檢查和回滾計劃應該包括什麼?
根本原因分析
我們遇到了影響 [service name] 的事件。幫我關聯指標、日誌和追蹤,使用 AIOps 技能中的可觀測性模式來識別根本原因。

أفضل الممارسات

  • 在生產環境中啟用自動執行之前,請務必為自動化動作實施試運行模式
  • 對所有自動化修復動作使用熔斷器和超時限制
  • 即使是低嚴重性的自動化回應,也要保持人工升級路徑

تجنب

  • 絕不執行沒有條件檢查和預先批准保護措施的自動化
  • 避免硬編碼憑證 - 使用密碼管理和環境變數
  • 在未經徹底測試的情況下,不要為關鍵服務啟用自動修復

الأسئلة المتكررة

支援哪些監控平台?
已包含 Prometheus、Loki、Jaeger 和 Datadog 整合。可以透過抽象的 DataSource 類別添加其他來源。
建議的重試和超時設定是什麼?
預設重試為 3 次,指數退避從 2 秒開始。每個動作的預設超時為 300 秒。
如何與現有工具整合?
為您的平台實作抽象的 DataSource 類別。使用 AutomationEngine 處理程式連接到您的操作手冊系統。
使用這些模式時我的資料安全嗎?
是的。模式在您的環境中執行。除了您配置的監控端點外,不會將任何資料傳送到外部服務。
如果自動化導致非預期的變更怎麼辦?
所有自動化動作都包含安全機制:前置條件、超時、回滾處理程式,以及執行歷史記錄。
這與現有的 AIOps 工具相比如何?
這些是您可以適用的實作模式。與供應商工具不同,這讓您可以完全控制 ML 模型、自動化邏輯和整合。

تفاصيل المطور

المؤلف

Azeem-2

الترخيص

MIT

مرجع

master

بنية الملفات

📄 SKILL.md