技能 slo-implementation

📊

slo-implementation

Name: slo-implementation
Author: sickn33

安全

为 SRE 实施 SLO 和错误预算

也可从以下获取: wshobson

通过可衡量的 SLO 目标和错误预算，在可靠性和功能开发速度之间取得平衡。停止争论可靠性，开始使用行业标准 SRE 实践来衡量它。

支持: Claude Codex Code(CC)

📊 71 充足

下载技能 ZIP

在 Claude 中上传

前往设置 → 功能 → 技能 → 上传技能

开启并开始使用

测试它

正在使用“slo-implementation”。 Help me define SLIs and SLOs for my API service. I need availability and latency targets.

预期结果:

以下是您的 API 的推荐 SLI：

可用性 SLI：
- 成功请求数 / 总请求数
- 目标：99.9%（允许每月 43.2 分钟的停机时间）
- PromQL：sum(rate(http_requests_total{status!~'5..'}[28d])) / sum(rate(http_requests_total[28d]))

延迟 SLI（p95 < 500ms）：
- 低于阈值的请求数 / 总请求数
- 目标：99%（1% 的请求可以较慢）
- PromQL：sum(rate(http_request_duration_seconds_bucket{le='0.5'}[28d])) / sum(rate(http_request_duration_seconds_count[28d]))

错误预算：
- 0.1% 预算 = 每月 43.2 分钟
- 实施消耗速率警报以在预算消耗过快时检测

正在使用“slo-implementation”。 Create Prometheus alerting rules for multi-window burn rate detection.

预期结果:

多窗口消耗速率警报规则：

快速消耗警报（严重）：
- 窗口：1 小时和 5 分钟确认
- 阈值：14.4x 消耗速率
- 触发条件：1 小时内消耗 2% 的错误预算
- 行动：立即呼叫待命工程师

慢速消耗警报（警告）：
- 窗口：6 小时和 30 分钟确认
- 阈值：6x 消耗速率
- 触发条件：6 小时内消耗 5% 的错误预算
- 行动：为下一个工作日创建工单

错误预算耗尽（严重）：
- 触发条件：剩余错误预算 < 0%
- 持续时间：5 分钟持续
- 行动：功能冻结，全员专注于可靠性

正在使用“slo-implementation”。 Design an error budget policy for a 99.9% SLO target.

预期结果:

99.9% SLO 的错误预算策略：

预算：0.1% = 每月 43.2 分钟

剩余 100% 预算时：
- 正常的开发速度
- 允许发布所有功能

剩余 50% 预算时：
- 推迟非必要的更改
- 为发布要求额外的测试
- 增加监控覆盖范围

剩余 10% 预算时：
- 冻结非关键功能
- 仅允许安全和热修复发布
- 每日可靠性站会

剩余 0% 预算时：
- 完全功能冻结
- 100% 专注于可靠性改进
- 未经 SRE 批准不得发布
- 需要根本原因分析

安全审计

安全

v1 • 2/25/2026

Static analysis detected 35 potential security issues, all of which are false positives. The flagged 'Ruby/shell backtick execution' patterns are Markdown code formatting (backticks) used for PromQL queries and YAML examples. The 'weak cryptographic algorithm' flags are documentation text and annotations, not actual encryption code. This skill contains only documentation with no executable code, network operations, or security vulnerabilities.

已扫描文件

344

分析行数

发现项

审计总数

低风险问题 (2)

SKILL.md:38-45 SKILL.md:52-57 SKILL.md:98-115 SKILL.md:151-194 SKILL.md:198-240

False Positive: Code Block Formatting

Static analyzer flagged Markdown code blocks (using backticks) as 'Ruby/shell backtick execution'. These are documentation code examples for PromQL queries and YAML configurations, not executable shell commands.

SKILL.md:3 SKILL.md:215 SKILL.md:229 SKILL.md:239

False Positive: Documentation Text

Static analyzer flagged 'weak cryptographic algorithm' at lines 3, 215, 229, 239. These are plain text descriptions and YAML comments in documentation, not actual cryptographic implementations.

审计者: claude

质量评分

架构

100

可维护性

内容

社区

100

安全

100

规范符合性

你能构建什么

建立可靠性基线

为新的微服务定义初始 SLI 和 SLO，以设置可衡量的可靠性目标，并创建能捕获实际问题而不会产生误报疲劳的警报。

实施错误预算治理

创建错误预算策略，当可靠性下降时自动冻结有风险的部署，帮助平衡功能速度和稳定性需求。

减少警报疲劳

使用多窗口消耗速率警报替换脆弱的阈值警报，仅在显著的可靠性下降时触发，将通知噪音减少 80%。

试试这些提示

定义基本 SLO

帮我为我的 API 服务定义 SLI 和 SLO。我需要可用性和延迟目标。

创建错误预算策略

为 99.9% 的 SLO 目标设计错误预算策略。定义在剩余预算 100%、50%、10% 和 0% 时的行动。

构建 SLO 警报

创建用于多窗口消耗速率检测的 Prometheus 警报规则。使用快速消耗（1h/5m）和慢速消耗（6h/30m）窗口。

审查 SLO 合规性

分析我当前的 SLO 合规数据。显示剩余错误预算、消耗速率趋势，并建议是否冻结功能发布。

最佳实践

从直接衡量客户体验的用户端 SLI 开始，而不是后端指标
将可实现的 SLO 设置在略低于当前性能的水平，以允许正常变化并防止持续警报
使用多窗口消耗速率警报（结合短窗口和长窗口）来消除瞬时波动产生的误报
每季度审查 SLO，以确保它们仍然反映业务优先级和实际用户需求

避免

将 SLO 目标设置为 100% 的可用性，这会消除所有错误预算并阻止任何功能开发
在原始指标阈值上创建警报而不是消耗速率，导致正常波动引起警报疲劳
定义太多 SLI，这会分散注意力并使优先考虑可靠性改进变得不可能
在没有管理层支持错误预算策略的情况下实施 SLO，使治理无法执行

常见问题

SLI、SLO 和 SLA 之间有什么区别？

SLI（服务级别指标）是衡量指标，如可用性百分比。SLO（服务级别目标）是该指标的内部目标，如 99.9% 的可用性。SLA（服务级别协议）是向客户做出的外部承诺，应低于内部 SLO 以提供缓冲。

为什么我不应该以 100% 的可靠性为目标？

100% 的可靠性留下零错误预算，意味着任何事故都会立即违反您的 SLO。这会阻止所有功能开发，因为您无法承担任何风险。99.9% 的目标允许每月 43 分钟的停机时间用于维护和实验，同时保持出色的用户体验。

如何选择正确的 SLO 百分比？

分析您 30 天内的当前性能，将 SLO 设置在该基线略下方。考虑用户期望、竞争对手基准和业务影响。从保守开始（99%），随着建立信心而收紧。目标是可实现的目标，能够捕获真正的问题，而不是完美。

什么是多窗口消耗速率警报？

多窗口警报需要短窗口（如 1 小时）和长窗口（如 6 小时）同时超过消耗速率阈值。这消除了短暂峰值引起的误报，同时捕获持续下降。例如，仅在 1 小时和 5 分钟窗口中消耗速率都超过 14.4x 时才警报。

错误预算治理如何工作？

错误预算将 SLO 转化为可操作的开发策略。当您有剩余预算时，正常发布功能。随着预算减少，冻结有风险的更改。在 0% 预算时，停止所有功能直到可靠性提高。这创建了一个自动反馈循环，平衡创新和稳定性。

实施 SLO 需要什么工具？

您需要指标系统（推荐 Prometheus）、可视化（Grafana）和警报（Alertmanager）。此技能提供 PromQL 查询、记录规则和警报配置。将这些部署到您现有的监控堆栈，然后构建仪表板以跟踪合规性。

开发者详情

作者

sickn33

许可证

MIT

仓库

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/slo-implementation

引用

main

文件结构

📄 SKILL.md