observability-engineer
프로덕션 관찰 가능성 시스템 설계
이 스킬은 엔터프라이즈 애플리케이션을 위한 종합적인 모니터링, 로깅 및 추적 시스템을 설계하고 구현하는 데 도움을 줍니다. SLI/SLO 관리, 분산 추적 및 인시던트 대응 워크플로우에 대한 전문적인 지침을 제공합니다.
스킬 ZIP 다운로드
Claude에서 업로드
설정 → 기능 → 스킬 → 스킬 업로드로 이동
토글을 켜고 사용 시작
테스트해 보기
"observability-engineer" 사용 중입니다. 하루에 100K 주문을 처리하는 체크아웃 서비스의 모니터링 전략 설계
예상 결과:
- 메트릭 수집: 주문 처리량, 지연 시간 백분위수(p50, p95, p99) 및 유형별 오류 레이트를 위한 recording rules와 함께 Prometheus 배포
- 주요 대시보드: Grafana에서 경영진 개요, 운영 실시간 및 문제 해결 드릴다운 뷰 생성
- 알림: p99 지연 시간 > 2초, 오류 레이트 > 1%, 체크아웃 성공률 < 99%에 대한 알림 구성
- 추적: 10%의 추적 샘플링 및 오류에 대한 전체 추적과 함께 OpenTelemetry 자동 계측 구현
- 로깅: 추적 상관 관계를 위한 주문 ID, 사용자 ID 및 지연 시간이 포함된 구조화된 JSON 로그
"observability-engineer" 사용 중입니다. 99.9% 가용성 목표를 가진 결제 API의 SLO 정의
예상 결과:
- SLI 정의: 성공적인 결제 요청 / 전체 결제 요청, 5분 창에서 측정
- SLO: 30일 롤링 창에서 99.9% 성공률 = 43.8분의 허용 오류 버짓
- 오류 버짓 알림: 2배(87.6분/일) 및 10배(438분/일) 임계값의 버닝 레이트 알림
- 소진 추적: 남은 오류 버짓, 일일 버닝 레이트 및 예상 위반 날짜를 보여주는 대시보드
보안 감사
안전Prompt-only skill with no executable code. Static analysis scanned 0 files (0 lines) and detected 0 security issues. The skill provides observability engineering guidance through text prompts only. No dangerous patterns, no network requests, no file system access, and no external commands detected. Content describes legitimate monitoring, logging, and tracing system design.
품질 점수
만들 수 있는 것
마이크로서비스 모니터링 아키텍처 설계
50개 이상의 서비스를 가진 마이크로서비스 시스템을 위한 종합적인 모니터링 전략을 수립하고, 메트릭 수집, 분산 추적 및 알림을 포함합니다.
SLI/SLO 프레임워크 수립
99.9% 가용성 목표 및 버닝 레이트 모니터링을 포함한 API 서비스의 서비스 수준 지표, 목표 및 오류 버짓을 정의합니다.
분산 추적 구현
지연 시간 병목 현상을 식별하고 서비스 경계를 넘어 근본 원인 분석을 수행하기 위해 이커머스 플랫폼에 분산 추적을 설정합니다.
이 프롬프트를 사용해 보세요
하루에 [traffic volume]개의 요청을 처리하는 [service type]의 모니터링 전략을 설계합니다. 메트릭 수집, 로깅 접근 방식 및 알림 권장 사항을 포함합니다.
[availability target]% 가용성을 목표로 하는 [service name] API의 SLI와 SLO를 정의하는 것을 도와주세요. 오류 버짓 계산 및 버닝 레이트 알림을 포함합니다.
알림 라우팅, 에스컬레이션 절차, 런북 권장 사항 및 사후 인시던트 분석 프로세스를 포함한 [incident type]의 인시던트 대응 워크플로우를 생성합니다.
현재 관찰 가능성 설정을 분석하고 비용 최적화 전략을 권장합니다. 현재 [tools]를 사용하고 매일 [volume]의 원격 측정 데이터를 생성합니다.
모범 사례
- 비즈니스 결과부터 시작하세요 - 지표를 선택하기 전에 사용자에게 안정적인 서비스가 무엇을 의미하는지 정의하세요
- 점진적 계측 구현: 가시성을 위해 먼저 메트릭, then debugging을 위해 추적, 그 다음 상세한 정보를 위해 로그
- 증상에 대해 알림을 보내고 원인에 대해서는 보내지 마세요 - 내부 컴포넌트가 실패할 때가 아니라 사용자가 영향을 받을 때 알리세요
피하기
- 모든 가능한 실패에 대한 알림 생성 - 알림 피로와 무시된 알림으로 이어짐
- 목적 없이 모든 것을 모니터링 - 비용 증가 및 신호 품질 감소
- SLO를 너무 엄격하게 설정 - 불필요한 스트레스 및 버짓 번아웃 발생