observability-engineer
设计生产环境可观测性系统
此技能帮助您为企业应用程序设计和实施全面的监控、日志记录和追踪系统。它提供关于 SLI/SLO 管理、分布式追踪和事件响应工作流程的专家指导。
下载技能 ZIP
在 Claude 中上传
前往 设置 → 功能 → 技能 → 上传技能
开启并开始使用
测试它
正在使用“observability-engineer”。 为每天处理 100K 订单的结账服务设计监控策略
预期结果:
- 指标收集:部署 Prometheus,使用记录规则收集订单吞吐量、延迟百分位数(p50、p95、p99)和按类型划分的错误率
- 关键仪表板:在 Grafana 中创建高管概览、运营实时视图和故障排查钻取视图
- 告警:配置 p99 延迟 > 2s、错误率 > 1% 和结账成功率 < 99% 的告警
- 追踪:实施 OpenTelemetry 自动插桩,错误追踪采样率为 10%,错误时进行完整追踪
- 日志记录:结构化 JSON 日志,包含订单 ID、用户 ID 和延迟,以便与追踪关联
正在使用“observability-engineer”。 为可用性目标 99.9% 的支付 API 定义 SLO
预期结果:
- SLI 定义:成功支付请求数 / 总支付请求数,在 5 分钟窗口内测量
- SLO:30 天滚动窗口的成功率为 99.9% = 43.8 分钟允许的错误预算
- 错误预算告警:燃烧率告警阈值设为 2x(87.6 分钟/天)和 10x(438 分钟/天)
- 消耗追踪:仪表板显示剩余错误预算、每日燃烧率和预计超支日期
安全审计
安全Prompt-only skill with no executable code. Static analysis scanned 0 files (0 lines) and detected 0 security issues. The skill provides observability engineering guidance through text prompts only. No dangerous patterns, no network requests, no file system access, and no external commands detected. Content describes legitimate monitoring, logging, and tracing system design.
质量评分
你能构建什么
设计微服务监控架构
为包含 50+ 服务的微服务系统创建全面的监控策略,包括指标收集、分布式追踪和告警。
建立 SLI/SLO 框架
为 API 服务定义服务水平指标、目标和错误预算,可用性目标为 99.9%,并包含燃烧率监控。
实施分布式追踪
为电子商务平台设置分布式追踪,以识别延迟瓶颈并在服务边界之间执行根本原因分析。
试试这些提示
为每天处理 [traffic volume] 请求的 [service type] 设计监控策略。包括指标收集、日志方法和告警建议。
帮助我为可用性目标为 [availability target]% 的 [service name] API 定义 SLI 和 SLO。包括错误预算计算和燃烧率告警。
为 [incident type] 创建事件响应工作流程,包括告警路由、升级程序、runbook 建议和事后分析流程。
分析我们当前的可观测性设置并推荐成本优化策略。我们目前使用 [tools],每天生成 [volume] 遥测数据。
最佳实践
- 从业务成果开始 - 在选择指标之前定义可靠服务对用户的含义
- 实施渐进式插桩:首先使用指标获得可见性,然后使用追踪进行调试,最后使用日志获取详细信息
- 针对症状告警,而非原因 - 在用户受影响时通知,而非内部组件故障时
避免
- 为每个可能的故障创建告警 - 导致告警疲劳和通知被忽略
- 无目的地监控所有内容 - 增加成本并降低信号质量
- 将 SLO 设置得过紧 - 导致不必要的压力和预算耗尽