技能 observability-engineer
📊

observability-engineer

安全

设计生产环境可观测性系统

此技能帮助您为企业应用程序设计和实施全面的监控、日志记录和追踪系统。它提供关于 SLI/SLO 管理、分布式追踪和事件响应工作流程的专家指导。

支持: Claude Codex Code(CC)
🥉 74 青铜
1

下载技能 ZIP

2

在 Claude 中上传

前往 设置 → 功能 → 技能 → 上传技能

3

开启并开始使用

测试它

正在使用“observability-engineer”。 为每天处理 100K 订单的结账服务设计监控策略

预期结果:

  • 指标收集:部署 Prometheus,使用记录规则收集订单吞吐量、延迟百分位数(p50、p95、p99)和按类型划分的错误率
  • 关键仪表板:在 Grafana 中创建高管概览、运营实时视图和故障排查钻取视图
  • 告警:配置 p99 延迟 > 2s、错误率 > 1% 和结账成功率 < 99% 的告警
  • 追踪:实施 OpenTelemetry 自动插桩,错误追踪采样率为 10%,错误时进行完整追踪
  • 日志记录:结构化 JSON 日志,包含订单 ID、用户 ID 和延迟,以便与追踪关联

正在使用“observability-engineer”。 为可用性目标 99.9% 的支付 API 定义 SLO

预期结果:

  • SLI 定义:成功支付请求数 / 总支付请求数,在 5 分钟窗口内测量
  • SLO:30 天滚动窗口的成功率为 99.9% = 43.8 分钟允许的错误预算
  • 错误预算告警:燃烧率告警阈值设为 2x(87.6 分钟/天)和 10x(438 分钟/天)
  • 消耗追踪:仪表板显示剩余错误预算、每日燃烧率和预计超支日期

安全审计

安全
v1 • 2/24/2026

Prompt-only skill with no executable code. Static analysis scanned 0 files (0 lines) and detected 0 security issues. The skill provides observability engineering guidance through text prompts only. No dangerous patterns, no network requests, no file system access, and no external commands detected. Content describes legitimate monitoring, logging, and tracing system design.

0
已扫描文件
0
分析行数
0
发现项
1
审计总数
未发现安全问题
审计者: claude

质量评分

38
架构
100
可维护性
87
内容
50
社区
100
安全
91
规范符合性

你能构建什么

设计微服务监控架构

为包含 50+ 服务的微服务系统创建全面的监控策略,包括指标收集、分布式追踪和告警。

建立 SLI/SLO 框架

为 API 服务定义服务水平指标、目标和错误预算,可用性目标为 99.9%,并包含燃烧率监控。

实施分布式追踪

为电子商务平台设置分布式追踪,以识别延迟瓶颈并在服务边界之间执行根本原因分析。

试试这些提示

基础监控设计
为每天处理 [traffic volume] 请求的 [service type] 设计监控策略。包括指标收集、日志方法和告警建议。
SLI/SLO 定义
帮助我为可用性目标为 [availability target]% 的 [service name] API 定义 SLI 和 SLO。包括错误预算计算和燃烧率告警。
事件响应设置
为 [incident type] 创建事件响应工作流程,包括告警路由、升级程序、runbook 建议和事后分析流程。
成本优化
分析我们当前的可观测性设置并推荐成本优化策略。我们目前使用 [tools],每天生成 [volume] 遥测数据。

最佳实践

  • 从业务成果开始 - 在选择指标之前定义可靠服务对用户的含义
  • 实施渐进式插桩:首先使用指标获得可见性,然后使用追踪进行调试,最后使用日志获取详细信息
  • 针对症状告警,而非原因 - 在用户受影响时通知,而非内部组件故障时

避免

  • 为每个可能的故障创建告警 - 导致告警疲劳和通知被忽略
  • 无目的地监控所有内容 - 增加成本并降低信号质量
  • 将 SLO 设置得过紧 - 导致不必要的压力和预算耗尽

常见问题

此技能支持哪些工具?
此技能涵盖主要的可观测性工具,包括 Prometheus、Grafana、Jaeger、Zipkin、ELK Stack、Loki、DataDog、New Relic、CloudWatch、OpenTelemetry、PagerDuty,以及 AWS、Azure 和 GCP 的云原生监控。
此技能可以部署监控基础设施吗?
不能。此技能提供设计指导、配置建议和实施方案。实际部署需要单独的基础设施工具,如 Terraform 或 Kubernetes。
我如何开始使用可观测性?
首先识别关键用户旅程并定义可靠服务的含义。然后为黄金信号(延迟、流量、错误和饱和度)进行插桩。逐步添加追踪和日志。
监控和可观测性之间有什么区别?
监控告诉您何时出现问题。可观测性帮助您理解原因。使用指标和仪表板进行监控,使用追踪进行调试,使用日志进行深入调查。
如何减少告警噪音?
使用告警分组、去重和抑制规则。针对影响用户的症状而非内部组件故障进行告警。为每个告警实施 runbook 以实现快速分类。
什么是 SLI、SLO 和错误预算?
SLI 衡量您的服务行为(例如请求成功率)。SLO 是您的目标 SLI 值(例如 99.9% 成功率)。错误预算是剩余的允许故障时间。它们共同实现数据驱动的可靠性决策。

开发者详情

文件结构

📄 SKILL.md