Question 1

メトリクスに適したスクレイプ間隔をどのように選べばよいですか？

Accepted Answer

ほとんどのサービスでは 15 秒から始めてください。レイテンシに敏感なシステムやデバッグ時は 5 秒を使用します。Prometheus の負荷が増加するだけで比例したメリットがないため、5 秒未満の間隔は避けてください。

Question 2

すべてのリクエストをトレースすべきか、サンプリングすべきか？

Accepted Answer

本番環境ではサンプリングしてください。高トラフィックサービスではヘッドベースサンプリング（例：リクエストの 10%）を使用します。ステージングでは 100% トレースしてください。サンプリングレートに関係なく、エラーは常にトレースしてください。

Question 3

RED モニタリングと USE モニタリングの違いは何ですか？

Accepted Answer

RED（Rate、Errors、Duration）はユーザー向けサービス用です。USE（Utilization、Saturation、Errors）はインフラリソース用です。アプリケーション監視には RED を、ノードとデータベースには USE を使用してください。

Question 4

意味のある SLO ターゲットをどのように設定すればよいですか？

Accepted Answer

ターゲットは現在のパフォーマンスではなく、ユーザーの期待とビジネス要件に基づいて設定してください。保守的（99%）に始めて、信頼性が向上するにつれて厳しくします。28〜30 日のウィンドウで測定してください。

Question 5

3 つの柱（メトリクス、ログ、トレース）を初日からすべて必要としますか？

Accepted Answer

メトリクスから始めてください。最も安価で「何が壊れているか」に答えられます。「なぜ壊れたか」にはロギングを追加します。クロスサービスの問題のデバッグが困難になった時点で、分散システムにトレーシングを追加してください。

Question 6

モニタリングデータをどの程度保持すべきですか？

Accepted Answer

デバッグのため、高解像度メトリクス（生サンプル）を 15〜30 日間保持してください。長期トレンドにはダウサンプリングまたはレコーディングルールを使用します。ログはコンプライアンス要件に基づいて保持し、通常は最低 90 日間です。

observability-monitoring-monitor-setup

テストする