observability-monitoring-monitor-setup
包括的な監視とオブザーバビリティのセットアップ
モニタリングを一から実装することは複雑でエラーが発生しやすいものです。このスキルは、MTTR を短縮しシステム全体の可視性を実現する、メトリクス、トレーシング、ロギングの実証済みパターンを提供します。
スキルZIPをダウンロード
Claudeでアップロード
設定 → 機能 → スキル → スキルをアップロードへ移動
オンにして利用開始
テストする
「observability-monitoring-monitor-setup」を使用しています。 自動ポッド検出を備えた Kubernetes クラスタ向け Prometheus スクレイピング設定
期待される結果:
- 自動検出用の kubernetes_sd_configs を使用した Prometheus 設定
- スクレイプターゲットに必要なポッドアノテーション
- 検出されたターゲットをフィルタリングおよびタグ付けするためのリラベルルール
- スクレイピングが動作していることを確認する検証手順
「observability-monitoring-monitor-setup」を使用しています。 メモリ使用量が 90% を超えた場合のアラート作成
期待される結果:
- container_memory_working_set_bytes を使用した PromQL 式
- 適切な閾値と期間を備えたアラートルール
- メモリ圧力の調査用ランブック手順
- メモリ動向を可視化する Grafana パネルクエリ
セキュリティ監査
安全This skill contains documentation and code samples for monitoring setup. All static analysis findings are false positives - backticks are markdown code block delimiters, not shell execution. URLs are internal service endpoints. Environment variable usage follows standard configuration patterns. No malicious patterns detected.
品質スコア
作れるもの
新規サービスのモニタリング
新しいマイクロサービス向けに、メトリクス、トレーシング、ロギングを備えた包括的なオブザーバビリティスタックを初日からセットアップします。
本番インシデント対応
MTTR を短縮し、プロアクティブな問題検出を可能にする、実用的なダッシュボードとアラートを作成します。
SLO 定義と追跡
エラー予算を備えたサービスレベル目標を定義し、信頼性エンジニアリングのためのバーンレート監視を実装します。
これらのプロンプトを試す
Node.js API に Prometheus メトリクスを追加したいです。リクエスト数、エラーレート、レイテンシ追跡が必要です。prom-client のセットアップと /metrics エンドポイントの公開方法を教えてください。
4 つのゴールデンシグナルを表示する決済サービス用の Grafana ダッシュボード JSON を作成してください。リクエストレート、エラーレート、p95/p99 レイテンシ、飽和メトリクスのパネルを含めてください。
高エラーレート(5 分間>5%)と低速レスポンスタイム(10 分間 p95>1 秒)のアラートルールが必要です。重大アラートを PagerDuty に、警告を Slack にルーティングするよう Alertmanager を設定してください。
30 日間で 99.9% の可用性ターゲットを備えた API の SLO を定義してください。エラー予算の計算方法、マルチウィンドウバーンレートアラートの設定、SLO 追跡用 Grafana パネルの作成方法を教えてください。
ベストプラクティス
- 正確なパーセンタイル計算のため、SLO ターゲットに合わせたヒストグラムバケットを使用する
- 効果的なフィルタリングのため、すべてのメトリクスに一貫したラベル(サービス、環境、バージョン)を追加する
- 通知を有効化する前に、アラートを履歴データでテストして誤検知を最小限に抑える
回避
- 明確なオーナーシップなしにすべてを監視すると、アラート疲労と無視されたページにつながる
- パーセンタイルではなく平均レイテンシを使用すると、ユーザーに影響するテールレイテンシの問題が見えなくなる
- 回答すべき質問を定義する前にダッシュボードを設定すると、労力が無駄になる