observability-monitoring-slo-implement
实施SLO和错误预算
设计和实施服务等级目标(SLO),使用SLI和错误预算来衡量和改进系统可靠性,同时平衡功能迭代速度。
下载技能 ZIP
在 Claude 中上传
前往 设置 → 功能 → 技能 → 上传技能
开启并开始使用
测试它
正在使用“observability-monitoring-slo-implement”。 为新的电子商务结账服务设计SLO
预期结果:
一个全面的SLO框架,包括:层级分类(关键)、可用性目标(99.95%)、延迟SLI(p95 < 500ms)、错误率SLI(< 0.1%)、错误预算计算(每月4.38小时)和消耗速率告警阈值。
正在使用“observability-monitoring-slo-implement”。 创建用于SLO跟踪的Prometheus记录规则
预期结果:
包含记录规则的YAML配置,用于请求速率、多个时间窗口(5m、30m、1h)的成功率、延迟百分位数(p50、p95、p99)和错误预算消耗速率计算。
安全审计
安全Static analysis detected 57 potential issues, but manual review confirms all findings are false positives. The skill contains documentation with Python code examples for SLO implementation - no actual executable code, no network calls, and no cryptographic operations. The placeholder URLs use example.com domain. This is a legitimate DevOps reliability skill.
中风险问题 (2)
低风险问题 (3)
质量评分
你能构建什么
为新API服务定义SLO
根据服务关键性创建具有适当目标的可用性、延迟和错误率SLO
设置错误预算告警
配置多窗口消耗速率告警,以检测快速和慢速错误预算消耗
建立SLO审查流程
为工程团队创建每周SLO审查模板和治理流程
试试这些提示
帮助我为支付处理服务设计SLO。该服务每分钟处理10,000个请求,需要高可靠性。我应该设置什么可用性目标,如何定义SLI?
我需要使用Prometheus为REST API服务实施SLI。请向我展示如何创建可用性和延迟SLI查询,以跟踪成功请求的百分比和延迟低于500毫秒的请求。
为我的服务配置错误预算消耗速率告警,SLO目标为99.9%。我需要快速消耗(立即通知)和慢速消耗(创建工单)两种告警规则。
为我的团队建立SLO治理框架,包括角色和职责、每周审查模板和利益相关方沟通流程。
最佳实践
- 从保守的SLO目标开始,根据实际服务性能数据逐步收紧
- 使用多个时间窗口的消耗速率告警,以捕获快速和慢速预算消耗
- 将SLO目标与业务优先级和用户期望对齐,而不是技术便利性
避免
- 初始SLO目标设置过紧,导致持续告警和告警疲劳
- 仅使用可用性SLI而不考虑延迟或质量指标
- 在未与利益相关方对齐或缺乏业务背景的情况下创建SLO