observability-engineer
本番環境のオブザーバビリティシステムを設計
このスキルは、エンタープライズアプリケーション向けの包括的なモニタリング、ログ、トレーシングシステムの設計と実装を支援します。SLI/SLO 管理、分散トレーシング、インシデント対応ワークフローに関する専門的なガイダンスを提供します。
スキルZIPをダウンロード
Claudeでアップロード
設定 → 機能 → スキル → スキルをアップロードへ移動
オンにして利用開始
テストする
「observability-engineer」を使用しています。 1 日 10 万件の注文を処理するチェックアウトサービスのモニタリング戦略を設計
期待される結果:
- メトリクス収集:注文スループット、レイテンシパーセンタイル(p50、p95、p99)、タイプ別エラーレートのレコーディングルールを含む Prometheus をデプロイ
- 主要ダッシュボード:Grafana でエグゼクティブ概要、運用リアルタイム、トラブルシューティングドリルダウンビューを作成
- アラート:p99 レイテンシ > 2 秒、エラーレート > 1%、チェックアウト成功率 < 99% のアラートを設定
- トレーシング:10% のトレースサンプリングとエラーのフルトレーシングを含む OpenTelemetry 自動インストルメンテーションを実装
- ログ:トレースとの相関関係のため、注文 ID、ユーザー ID、レイテンシを含む構造化 JSON ログ
「observability-engineer」を使用しています。 99.9% の可用性ターゲットを持つ決済 API の SLO を定義
期待される結果:
- SLI 定義:5 分間のウィンドウで測定された成功した決済リクエスト数 / 総決済リクエスト数
- SLO:30 日間のローリングウィンドウで 99.9% の成功率 = 43.8 分の許容エラーバジェット
- エラーバジェットアラート:2 倍(1 日 87.6 分)と 10 倍(1 日 438 分)のしきい値でバーンレートアラート
- 消費追跡:残りのエラーバジェット、1 日のバーンレート、予測される侵害日を表示するダッシュボード
セキュリティ監査
安全Prompt-only skill with no executable code. Static analysis scanned 0 files (0 lines) and detected 0 security issues. The skill provides observability engineering guidance through text prompts only. No dangerous patterns, no network requests, no file system access, and no external commands detected. Content describes legitimate monitoring, logging, and tracing system design.
品質スコア
作れるもの
マイクロサービスモニタリングアーキテクチャの設計
50 以上のサービスを持つマイクロサービスシステム向けの包括的なモニタリング戦略を作成。メトリクス収集、分散トレーシング、アラート機能を含む。
SLI/SLO フレームワークの確立
99.9% の可用性ターゲットとバーンレートモニタリングを備えた API サービス向けに、サービスレベル指標、目標、エラーバジェットを定義。
分散トレーシングの実装
レイテンシのボトルネックを特定し、サービス境界を越えたルート Cause 分析を実行するために、E コマースプラットフォームに分散トレーシングを設定。
これらのプロンプトを試す
1 日あたり [traffic volume] リクエストを処理する [service type] 向けのモニタリング戦略を設計してください。メトリクス収集、ログアプローチ、アラート推奨を含めてください。
[availability target]% の可用性を持つ [service name] API の SLI と SLO の定義を支援してください。エラーバジェット計算とバーンレートアラートを含めてください。
[incident type] のインシデント対応ワークフローを作成してください。アラートルーティング、エスカレーション手順、ランブック推奨、事後分析プロセスを含めてください。
現在のオブザーバビリティ設定を分析し、コスト最適化戦略を推奨してください。現在 [tools] を使用しており、毎日 [volume] のテレメトリデータを生成しています。
ベストプラクティス
- ビジネス成果から始める - メトリクスを選択する前に、ユーザーにとって信頼性の高いサービスが何を意味するかを定義する
- 段階的なインストルメンテーションを実装:まず可視性のためにメトリクス、次にデバッグのためにトレース、そして詳細のためにログ
- 原因ではなく症状でアラート - 内部コンポーネントが失敗したときではなく、ユーザーが影響を受けたときに通知する
回避
- あらゆる可能性のある失敗に対してアラートを作成 - アラート疲労と通知の無視につながる
- 目的なくすべてをモニタリング - コストが増加し、シグナル品質が低下する
- SLO を厳しすぎに設定 - 不要なストレスとバジェット枯渇を引き起こす