技能 observability-engineer

📊

observability-engineer

Name: observability-engineer
Author: sickn33

安全

設計生產環境可觀測性系統

此技能協助您設計和實施全面的監控、日誌記錄和追蹤系統，適用於企業應用程式。它提供關於 SLI/SLO 管理、分散式追蹤和事件回應工作流程的專業指導。

支援: Claude Codex Code(CC)

📊 70 充足

下載技能 ZIP

在 Claude 中上傳

前往設定 → 功能 → 技能 → 上傳技能

開啟並開始使用

測試它

正在使用「observability-engineer」。為我們每天處理 10 萬訂單的結帳服務設計監控策略

預期結果:

指標收集：部署 Prometheus，使用記錄規則監控訂單吞吐量、延遲百分位數（p50、p95、p99）和按類型分類的錯誤率
關鍵儀表板：在 Grafana 中建立高階概覽、營運即時和疑難排解下鑽視圖
警報：設定 p99 延遲 > 2 秒、錯誤率 > 1% 和結帳成功率 < 99% 的警報
追蹤：實施 OpenTelemetry 自動插樁，追蹤取樣率為 10%，錯誤則進行完整追蹤
日誌記錄：結構化 JSON 日誌，包含訂單 ID、使用者 ID 和延遲，以便與追蹤關聯

正在使用「observability-engineer」。為可用性目標 99.9% 的付款 API 定義 SLO

預期結果:

SLI 定義：成功付款請求 / 總付款請求，以 5 分鐘窗口測量
SLO：30 天滾動窗口的成功率為 99.9% = 43.8 分鐘允許錯誤預算
錯誤預算警報：消耗率警報設定在 2 倍（每天 87.6 分鐘）和 10 倍（每天 438 分鐘）閾值
消耗追蹤：儀表板顯示剩餘錯誤預算、每日消耗率和預計違約日期

安全審計

安全

v1 • 2/24/2026

Prompt-only skill with no executable code. Static analysis scanned 0 files (0 lines) and detected 0 security issues. The skill provides observability engineering guidance through text prompts only. No dangerous patterns, no network requests, no file system access, and no external commands detected. Content describes legitimate monitoring, logging, and tracing system design.

已掃描檔案

分析行數

發現項

審計總數

未發現安全問題

審計者: claude

品質評分

架構

100

可維護性

內容

社群

100

安全

規範符合性

你能建構什麼

設計微服務監控架構

為包含 50 多個服務的微服務系統建立全面的監控策略，包括指標收集、分散式追蹤和警報。

建立 SLI/SLO 框架

為 API 服務定義服務等級指標、目標和錯誤預算，可用性目標為 99.9%，並包含消耗率監控。

實施分散式追蹤

為電子商務平台設定分散式追蹤，以識別延遲瓶頸並執行跨服務邊界的根本原因分析。

試試這些提示

基礎監控設計

為每天處理 [traffic volume] 請求的 [service type] 設計監控策略。包括指標收集、日誌記錄方法和警報建議。

SLI/SLO 定義

協助我為可用性目標為 [availability target]% 的 [service name] API 定義 SLI 和 SLO。包括錯誤預算計算和消耗率警報。

事件回應設定

為 [incident type] 建立事件回應工作流程，包括警報路由、升級程序、操作手冊建議和事件後分析流程。

成本優化

分析我們目前的可觀測性設定並推薦成本優化策略。我們目前使用 [tools]，每天產生 [volume] 的遙測資料。

最佳實務

從業務成果開始 - 在選擇指標之前，先定義對使用者而言可靠的服務意味著什麼
實施漸進式儀器化：首先使用指標獲得可見性，然後使用追蹤進行除錯，最後使用日誌獲取詳細資訊
針對症狀而非原因發出警報 - 當使用者受到影響時通知，而非內部元件故障時

避免

為每個可能發生的故障建立警報 - 導致警報疲勞和被忽略的通知
無目的地監控一切 - 增加成本並降低訊號品質
將 SLO 設定得太嚴格 - 造成不必要的壓力和預算耗盡

常見問題

此技能支援哪些工具？

此技能涵蓋主要的可觀測性工具，包括 Prometheus、Grafana、Jaeger、Zipkin、ELK Stack、Loki、DataDog、New Relic、CloudWatch、OpenTelemetry、PagerDuty，以及 AWS、Azure 和 GCP 的雲端原生監控。

此技能可以部署監控基礎設施嗎？

不可以。此技能提供設計指導、設定建議和實施計劃。實際部署需要单独的基礎設施工具，如 Terraform 或 Kubernetes。

我該如何開始實施可觀測性？

首先識別您的關鍵使用者旅程，並定義可靠服務的含義。然後針對黃金訊號（延遲、流量、錯誤和飽和度）進行儀器化。逐步新增追蹤和日誌。

監控和可觀測性之間有什麼區別？

監控告訴您何時出現問題。可觀測性幫助您了解原因。使用指標和儀表板進行監控，使用追蹤進行除錯，使用日誌進行深入調查。

我該如何減少警報雜訊？

使用警報分組、去重和抑制規則。針對影響使用者的症狀發出警報，而非內部元件故障。為每個警報實施操作手冊以實現快速分類。

什麼是 SLI、SLO 和錯誤預算？

SLI 測量您的服務行為（例如請求成功率）。SLO 是您的目標 SLI 值（例如 99.9% 成功率）。錯誤預算是剩餘的允許故障時間。它們共同實現數據驅動的可靠性決策。

開發者詳情

作者

sickn33

授權

MIT

儲存庫

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/observability-engineer

引用

main

檔案結構

📄 SKILL.md