スキル observability-monitoring-monitor-setup
📦

observability-monitoring-monitor-setup

安全

包括的な監視とオブザーバビリティのセットアップ

モニタリングを一から実装することは複雑でエラーが発生しやすいものです。このスキルは、MTTR を短縮しシステム全体の可視性を実現する、メトリクス、トレーシング、ロギングの実証済みパターンを提供します。

対応: Claude Codex Code(CC)
🥉 74 ブロンズ
1

スキルZIPをダウンロード

2

Claudeでアップロード

設定 → 機能 → スキル → スキルをアップロードへ移動

3

オンにして利用開始

テストする

「observability-monitoring-monitor-setup」を使用しています。 自動ポッド検出を備えた Kubernetes クラスタ向け Prometheus スクレイピング設定

期待される結果:

  • 自動検出用の kubernetes_sd_configs を使用した Prometheus 設定
  • スクレイプターゲットに必要なポッドアノテーション
  • 検出されたターゲットをフィルタリングおよびタグ付けするためのリラベルルール
  • スクレイピングが動作していることを確認する検証手順

「observability-monitoring-monitor-setup」を使用しています。 メモリ使用量が 90% を超えた場合のアラート作成

期待される結果:

  • container_memory_working_set_bytes を使用した PromQL 式
  • 適切な閾値と期間を備えたアラートルール
  • メモリ圧力の調査用ランブック手順
  • メモリ動向を可視化する Grafana パネルクエリ

セキュリティ監査

安全
v1 • 2/24/2026

This skill contains documentation and code samples for monitoring setup. All static analysis findings are false positives - backticks are markdown code block delimiters, not shell execution. URLs are internal service endpoints. Environment variable usage follows standard configuration patterns. No malicious patterns detected.

2
スキャンされたファイル
557
解析された行数
0
検出結果
1
総監査数
セキュリティ問題は見つかりませんでした
監査者: claude

品質スコア

38
アーキテクチャ
100
保守性
87
コンテンツ
50
コミュニティ
100
セキュリティ
91
仕様準拠

作れるもの

新規サービスのモニタリング

新しいマイクロサービス向けに、メトリクス、トレーシング、ロギングを備えた包括的なオブザーバビリティスタックを初日からセットアップします。

本番インシデント対応

MTTR を短縮し、プロアクティブな問題検出を可能にする、実用的なダッシュボードとアラートを作成します。

SLO 定義と追跡

エラー予算を備えたサービスレベル目標を定義し、信頼性エンジニアリングのためのバーンレート監視を実装します。

これらのプロンプトを試す

基本メトリクス設定
Node.js API に Prometheus メトリクスを追加したいです。リクエスト数、エラーレート、レイテンシ追跡が必要です。prom-client のセットアップと /metrics エンドポイントの公開方法を教えてください。
Grafana ダッシュボード作成
4 つのゴールデンシグナルを表示する決済サービス用の Grafana ダッシュボード JSON を作成してください。リクエストレート、エラーレート、p95/p99 レイテンシ、飽和メトリクスのパネルを含めてください。
アラート設定
高エラーレート(5 分間>5%)と低速レスポンスタイム(10 分間 p95>1 秒)のアラートルールが必要です。重大アラートを PagerDuty に、警告を Slack にルーティングするよう Alertmanager を設定してください。
SLO 実装
30 日間で 99.9% の可用性ターゲットを備えた API の SLO を定義してください。エラー予算の計算方法、マルチウィンドウバーンレートアラートの設定、SLO 追跡用 Grafana パネルの作成方法を教えてください。

ベストプラクティス

  • 正確なパーセンタイル計算のため、SLO ターゲットに合わせたヒストグラムバケットを使用する
  • 効果的なフィルタリングのため、すべてのメトリクスに一貫したラベル(サービス、環境、バージョン)を追加する
  • 通知を有効化する前に、アラートを履歴データでテストして誤検知を最小限に抑える

回避

  • 明確なオーナーシップなしにすべてを監視すると、アラート疲労と無視されたページにつながる
  • パーセンタイルではなく平均レイテンシを使用すると、ユーザーに影響するテールレイテンシの問題が見えなくなる
  • 回答すべき質問を定義する前にダッシュボードを設定すると、労力が無駄になる

よくある質問

メトリクスに適したスクレイプ間隔をどのように選べばよいですか?
ほとんどのサービスでは 15 秒から始めてください。レイテンシに敏感なシステムやデバッグ時は 5 秒を使用します。Prometheus の負荷が増加するだけで比例したメリットがないため、5 秒未満の間隔は避けてください。
すべてのリクエストをトレースすべきか、サンプリングすべきか?
本番環境ではサンプリングしてください。高トラフィックサービスではヘッドベースサンプリング(例:リクエストの 10%)を使用します。ステージングでは 100% トレースしてください。サンプリングレートに関係なく、エラーは常にトレースしてください。
RED モニタリングと USE モニタリングの違いは何ですか?
RED(Rate、Errors、Duration)はユーザー向けサービス用です。USE(Utilization、Saturation、Errors)はインフラリソース用です。アプリケーション監視には RED を、ノードとデータベースには USE を使用してください。
意味のある SLO ターゲットをどのように設定すればよいですか?
ターゲットは現在のパフォーマンスではなく、ユーザーの期待とビジネス要件に基づいて設定してください。保守的(99%)に始めて、信頼性が向上するにつれて厳しくします。28〜30 日のウィンドウで測定してください。
3 つの柱(メトリクス、ログ、トレース)を初日からすべて必要としますか?
メトリクスから始めてください。最も安価で「何が壊れているか」に答えられます。「なぜ壊れたか」にはロギングを追加します。クロスサービスの問題のデバッグが困難になった時点で、分散システムにトレーシングを追加してください。
モニタリングデータをどの程度保持すべきですか?
デバッグのため、高解像度メトリクス(生サンプル)を 15〜30 日間保持してください。長期トレンドにはダウサンプリングまたはレコーディングルールを使用します。ログはコンプライアンス要件に基づいて保持し、通常は最低 90 日間です。

開発者の詳細

ファイル構成