技能 aiops

🤖

aiops

Name: aiops
Author: Azeem-2

低風險 ⚙️ 外部命令🌐 網路存取

為基礎設施實施智慧 AIOps 策略

AIOps 技能可協助您建立自動化的事件回應、異常偵測和自我修復基礎設施。這些模式可與任何監控平台搭配使用，以縮短 MTTR 並提高可靠性。

支援: Claude Codex Code(CC)

⚠️ 65 差

下載技能 ZIP

在 Claude 中上傳

前往設定 → 功能 → 技能 → 上傳技能

開啟並開始使用

測試它

正在使用「aiops」。幫我分析一個關於我們主要資料庫服務記憶體使用量過高的高嚴重性警報

預期結果:

警報分類：resource_exhaustion - 偵測到記憶體壓力
建議動作：1) 擴展副本 20%，2) 通知 devops 頻道，3) 檢查近期部署中的記憶體洩漏
風險評估：影響高，自動修復是安全的
後續行動：如果趨勢持續，安排容量審查

正在使用「aiops」。為一個持續健康檢查失敗的服務建立自動化修復策略

預期結果:

策略名稱：health_check_remediation
觸發條件：2 分鐘內連續 3 次健康檢查失敗
動作順序：1) 重啟部署，2) 驗證 pod 正在執行，3) 如果重啟失敗則發送通知
安全閘道：檢查叢集 CPU < 80%，驗證無正在進行的部署
升級：如果修復嘗試 2 次後失敗，則警報通知值班人員

正在使用「aiops」。如何為我的 API 回應時間設定異常偵測

預期結果:

資料來源：配置 PrometheusDataSource 以查詢 http_request_duration_seconds 直方圖
模型類型：隔離森林用於多維異常偵測
訓練窗口：使用過去 7 天的歷史資料
警報閾值：標記 z-score > 3.0 的異常
動作：偵測到異常時觸發調查工作流程

安全審計

低風險

v5 • 1/16/2026

This is a documentation-only skill containing code patterns for AIOps implementation. Static findings are false positives: C2 keywords are standard DevOps terminology, weak crypto flags are incorrect, subprocess patterns are legitimate kubectl automation, and API key references are placeholder parameter names. Prior AI audit confirmed low risk with no file system access beyond normal execution.

已掃描檔案

2,077

分析行數

發現項

審計總數

風險因素

⚙️ 外部命令 (1)

SKILL.md:1282-1294

🌐 網路存取 (1)

SKILL.md:356-394

審計者: claude 查看審計歷史 →

品質評分

架構

100

可維護性

內容

社群

安全

規範符合性

你能建構什麼

自動化事件回應

建立自動化的操作手冊，可在無需人工介入的情況下偵測、分類和修復問題

部署自我修復系統

建立可自動重啟服務、擴展資源或隔離故障的策略

實施統一可觀測性

從多個來源建立跨指標、日誌和追蹤的儀表板和警報

試試這些提示

警報分級

幫我分析這個警報。嚴重程度是 [critical|high|medium|low]，服務是 [name]，訊息是：[alert message]。我們的回應計劃應該包括什麼？

容量規劃

我們在過去 [time period] 的 [CPU|memory|storage] 使用量一直 [describe trend]。使用 AIOps 模式，幫我建立容量預測模型和擴展建議。

建立自動化

我需要為 [specific failure type] 建立自動化修復動作。遵循 AIOps 最佳實踐，動作順序、安全檢查和回滾計劃應該包括什麼？

根本原因分析

我們遇到了影響 [service name] 的事件。幫我關聯指標、日誌和追蹤，使用 AIOps 技能中的可觀測性模式來識別根本原因。

最佳實務

在生產環境中啟用自動執行之前，請務必為自動化動作實施試運行模式
對所有自動化修復動作使用熔斷器和超時限制
即使是低嚴重性的自動化回應，也要保持人工升級路徑

避免

絕不執行沒有條件檢查和預先批准保護措施的自動化
避免硬編碼憑證 - 使用密碼管理和環境變數
在未經徹底測試的情況下，不要為關鍵服務啟用自動修復

常見問題

支援哪些監控平台？

已包含 Prometheus、Loki、Jaeger 和 Datadog 整合。可以透過抽象的 DataSource 類別添加其他來源。

建議的重試和超時設定是什麼？

預設重試為 3 次，指數退避從 2 秒開始。每個動作的預設超時為 300 秒。

如何與現有工具整合？

為您的平台實作抽象的 DataSource 類別。使用 AutomationEngine 處理程式連接到您的操作手冊系統。

使用這些模式時我的資料安全嗎？

是的。模式在您的環境中執行。除了您配置的監控端點外，不會將任何資料傳送到外部服務。

如果自動化導致非預期的變更怎麼辦？

所有自動化動作都包含安全機制：前置條件、超時、回滾處理程式，以及執行歷史記錄。

這與現有的 AIOps 工具相比如何？

這些是您可以適用的實作模式。與供應商工具不同，這讓您可以完全控制 ML 模型、自動化邏輯和整合。

開發者詳情

作者

Azeem-2

授權

MIT

儲存庫

https://github.com/Azeem-2/HackthonII/tree/master/.claude/skills/aiops

引用

master

檔案結構

📄 SKILL.md