observability-monitoring-slo-implement
SLO とエラーバジェットの実装
SLI とエラーバジェットを用いたサービスレベル目標を設計・実装し、機能開発のスピードとバランスを取りながらシステムの信頼性を測定・改善します。
スキルZIPをダウンロード
Claudeでアップロード
設定 → 機能 → スキル → スキルをアップロードへ移動
オンにして利用開始
テストする
「observability-monitoring-slo-implement」を使用しています。 新しい e コマースチェックアウトサービスの SLO を設計
期待される結果:
包括的な SLO フレームワーク:ティア分類(重要)、可用性目標(99.95%)、レイテンシ SLI(p95 < 500ms)、エラー率 SLI(< 0.1%)、エラーバジェット計算(月 4.38 時間)、燃焼率アラート閾値。
「observability-monitoring-slo-implement」を使用しています。 SLO 追跡のための Prometheus 記録ルールを作成
期待される結果:
記録ルールの YAML 設定:リクエストレート、複数時間ウィンドウ(5 分、30 分、1 時間)での成功率、レイテンシパーセンタイル(p50、p95、p99)、エラーバジェット燃焼率計算。
セキュリティ監査
安全Static analysis detected 57 potential issues, but manual review confirms all findings are false positives. The skill contains documentation with Python code examples for SLO implementation - no actual executable code, no network calls, and no cryptographic operations. The placeholder URLs use example.com domain. This is a legitimate DevOps reliability skill.
中リスクの問題 (2)
低リスクの問題 (3)
品質スコア
作れるもの
新しい API サービスの SLO 定義
サービスの重要度に基づき、可用性、レイテンシ、エラー率の SLO と適切な目標値を作成
エラーバジェットアラートの設定
高速および低速のエラーバジェット消費を検知するためのマルチウィンドウ燃焼率アラートを設定
SLO レビュープロセスの確立
エンジニアリングチーム向けの週次 SLO レビューテンプレートとガバナンスプロセスを作成
これらのプロンプトを試す
決済処理サービスの SLO 設計を手伝ってください。1 分間に 10,000 リクエストを処理し、高い信頼性が必要です。どのような可用性目標を設定すべきか、また SLI をどのように定義すればよいか教えてください。
Prometheus を使用した REST API サービスの SLI を実装する必要があります。成功率と 500ms 未満のリクエスト率を追跡する可用性およびレイテンシ SLI クエリの作成方法を示してください。
99.9% の SLO 目標を持つサービスのエラーバジェット燃焼率アラートを設定してください。即時ページング用の高速燃焼とチケット作成用の低速燃焼の両方のアラートルールが必要です。
役割と責任、週次レビューテンプレート、ステークホルダーとのコミュニケーションプロセスを含むチームの SLO ガバナンスフレームワークを確立してください。
ベストプラクティス
- 保守的な SLO 目標から始め、実際のサービスパフォーマンスデータに基づいて調整する
- 燃焼率アラートでは複数の時間ウィンドウを使用して、高速および低速のバジェット消費の両方を検知する
- SLO 目標は技術的な都合ではなく、ビジネスの優先順位とユーザーの期待に合わせて設定する
回避
- 最初に SLO 目標を厳しく設定しすぎて、常にアラートが発生しアラート疲労を引き起こす
- レイテンシや品質メトリクスを考慮せず、可用性 SLI のみを使用する
- ステークホルダーとの調整やビジネスコンテキストなしに SLO を作成する