Question 1

메트릭에 적절한 스크래이프 간격을 어떻게 선택하나요?

Accepted Answer

대부분의 서비스에서는 15초로 시작하세요. 대기 시간에 민감한 시스템이나 디버깅 시에는 5초를 사용��세요. 5초 미만 간격은 비례하는 혜택 없이 Prometheus 부하를 증가시키므로 피하세요.

Question 2

모든 요청을 추적해야 하나요 아니면 샘플링해야 하나요?

Accepted Answer

프로덕션에서 샘플링하세요. 트래픽이 많은 서비스에는 헤드 기반 샘플링(예: 요청의 10%)을 사용하세요. 스테이���에서는 100% 추적하세요. 샘플링율에 관계없이 항상 오류를 추적하세요.

Question 3

RED 및 USE 모니터링의 차이점은 ��엇인가요?

Accepted Answer

RED(Rate, Errors, Duration)는 ��용자 대면 서비스용입니다. USE(Utilization, Saturation, Errors)는 인프라 리소스용입니다. 애플리케이션 모니터링에는 RED를, 노드 및 데이터베이스에는 USE를 사용하세요.

Question 4

의미 있는 SLO 목표를 어떻게 설정하나요?

Accepted Answer

목표를 현재 성능이 아닌 사용자 기대치 및 비즈니스 요구사항에 기반하세요. 보수적으로(99%) 시작하고 안정성이 개선됨에 따라 강화하세요. 28-30일 윈도우로 측정하세요.

Question 5

첫날부터 세 가지 핵심 ��소(메트릭, 로그, 추��)가 모두 필요한가요?

Accepted Answer

가장 저렴하고 '무엇이 고장났는지'를 답해주는 메트릭으로 시작하세요. '왜 고장났는지'를 위해 로깅을 추가하세요. 서비스 간 문제 디버깅이 어려워지면 분산 시스템을 위해 추적을 추가하세요.

Question 6

모니터링 데이터를 얼마나 오래 보관해야 하나요?

Accepted Answer

디버깅을 위해 고해상도 메트릭(원본 샘플)을 15-30일 동안 보관하세요. 장기 트렌드에는 다운샘플링 또는 레코딩 규칙을 사용하세요. 일반적으로 최소 90일 기준, 준수 요구사항에 따라 로그를 저장하세요.

observability-monitoring-monitor-setup

테스트해 보기