スキル observability-engineer

📊

observability-engineer

Name: observability-engineer
Author: sickn33

安全

프로덕션 관찰 가능성 시스템 설계

이 스킬은 엔터프라이즈 애플리케이션을 위한 종합적인 모니터링, 로깅 및 추적 시스템을 설계하고 구현하는 데 도움을 줍니다. SLI/SLO 관리, 분산 추적 및 인시던트 대응 워크플로우에 대한 전문적인 지침을 제공합니다.

対応: Claude Codex Code(CC)

📊 70 十分

スキルZIPをダウンロード

Claudeでアップロード

設定 → 機能 → スキル → スキルをアップロードへ移動

オンにして利用開始

テストする

「observability-engineer」を使用しています。 하루에 100K 주문을 처리하는 체크아웃 서비스의 모니터링 전략 설계

期待される結果:

메트릭 수집: 주문 처리량, 지연 시간 백분위수(p50, p95, p99) 및 유형별 오류 레이트를 위한 recording rules와 함께 Prometheus 배포
주요 대시보드: Grafana에서 경영진 개요, 운영 실시간 및 문제 해결 드릴다운 뷰 생성
알림: p99 지연 시간 > 2초, 오류 레이트 > 1%, 체크아웃 성공률 < 99%에 대한 알림 구성
추적: 10%의 추적 샘플링 및 오류에 대한 전체 추적과 함께 OpenTelemetry 자동 계측 구현
로깅: 추적 상관 관계를 위한 주문 ID, 사용자 ID 및 지연 시간이 포함된 구조화된 JSON 로그

「observability-engineer」を使用しています。 99.9% 가용성 목표를 가진 결제 API의 SLO 정의

期待される結果:

SLI 정의: 성공적인 결제 요청 / 전체 결제 요청, 5분 창에서 측정
SLO: 30일 롤링 창에서 99.9% 성공률 = 43.8분의 허용 오류 버짓
오류 버짓 알림: 2배(87.6분/일) 및 10배(438분/일) 임계값의 버닝 레이트 알림
소진 추적: 남은 오류 버짓, 일일 버닝 레이트 및 예상 위반 날짜를 보여주는 대시보드

セキュリティ監査

安全

v1 • 2/24/2026

Prompt-only skill with no executable code. Static analysis scanned 0 files (0 lines) and detected 0 security issues. The skill provides observability engineering guidance through text prompts only. No dangerous patterns, no network requests, no file system access, and no external commands detected. Content describes legitimate monitoring, logging, and tracing system design.

スキャンされたファイル

解析された行数

検出結果

総監査数

セキュリティ問題は見つかりませんでした

監査者: claude

品質スコア

アーキテクチャ

100

保守性

コンテンツ

コミュニティ

100

セキュリティ

仕様準拠

作れるもの

마이크로서비스 모니터링 아키텍처 설계

50개 이상의 서비스를 가진 마이크로서비스 시스템을 위한 종합적인 모니터링 전략을 수립하고, 메트릭 수집, 분산 추적 및 알림을 포함합니다.

SLI/SLO 프레임워크 수립

99.9% 가용성 목표 및 버닝 레이트 모니터링을 포함한 API 서비스의 서비스 수준 지표, 목표 및 오류 버짓을 정의합니다.

분산 추적 구현

지연 시간 병목 현상을 식별하고 서비스 경계를 넘어 근본 원인 분석을 수행하기 위해 이커머스 플랫폼에 분산 추적을 설정합니다.

これらのプロンプトを試す

기본 모니터링 설계

하루에 [traffic volume]개의 요청을 처리하는 [service type]의 모니터링 전략을 설계합니다. 메트릭 수집, 로깅 접근 방식 및 알림 권장 사항을 포함합니다.

SLI/SLO 정의

[availability target]% 가용성을 목표로 하는 [service name] API의 SLI와 SLO를 정의하는 것을 도와주세요. 오류 버짓 계산 및 버닝 레이트 알림을 포함합니다.

인시던트 대응 설정

알림 라우팅, 에스컬레이션 절차, 런북 권장 사항 및 사후 인시던트 분석 프로세스를 포함한 [incident type]의 인시던트 대응 워크플로우를 생성합니다.

비용 최적화

현재 관찰 가능성 설정을 분석하고 비용 최적화 전략을 권장합니다. 현재 [tools]를 사용하고 매일 [volume]의 원격 측정 데이터를 생성합니다.

ベストプラクティス

비즈니스 결과부터 시작하세요 - 지표를 선택하기 전에 사용자에게 안정적인 서비스가 무엇을 의미하는지 정의하세요
점진적 계측 구현: 가시성을 위해 먼저 메트릭, then debugging을 위해 추적, 그 다음 상세한 정보를 위해 로그
증상에 대해 알림을 보내고 원인에 대해서는 보내지 마세요 - 내부 컴포넌트가 실패할 때가 아니라 사용자가 영향을 받을 때 알리세요

回避

모든 가능한 실패에 대한 알림 생성 - 알림 피로와 무시된 알림으로 이어짐
목적 없이 모든 것을 모니터링 - 비용 증가 및 신호 품질 감소
SLO를 너무 엄격하게 설정 - 불필요한 스트레스 및 버짓 번아웃 발생

よくある質問

이 스킬이 지원하는 도구는 무엇인가요?

이 스킬은 Prometheus, Grafana, Jaeger, Zipkin, ELK 스택, Loki, DataDog, New Relic, CloudWatch, OpenTelemetry, PagerDuty 및 AWS, Azure, GCP의 클라우드 네이티브 모니터링을 포함한 주요 관찰 가능성 도구를 다룹니다.

이 스킬이 모니터링 인프라를 배포할 수 있나요?

아니요. 이 스킬은 설계 지침, 구성 권장 사항 및 구현 계획을 제공합니다. 실제 배포에는 Terraform이나 Kubernetes와 같은 별도의 인프라 도구가 필요합니다.

관찰 가능성을 시작하려면 어떻게 해야 하나요?

사용자의 중요한 여정을 식별하고 안정적인 서비스가 무엇을 의미하는지 정의하는 것으로 시작하세요. 그런 다음 지연 시간, 트래픽, 오류 및 포화라는 황금 신호에 대해 계측하세요. 점진적으로 추적과 로그를 추가하세요.

모니터링과 관찰 가능성의 차이점은 무엇인가요?

모니터링은 무엇이 잘못되었는지 알려줍니다. 관찰 가능성은 왜 그런지 이해하는 데 도움이 됩니다. 모니터링에는 메트릭과 대시보드를 사용하고, 디버깅에는 추적을 사용하고, 심층 조사는 로그를 사용하세요.

알림 노이즈를 줄이려면 어떻게 해야 하나요?

알림 그룹화, 중복 제거 및 억제 규칙을 사용하세요. 내부 컴포넌트 실패가 아닌 사용자에게 영향을 주는 증상에 대해 알림을 보내세요. 빠른 분류를 위해 각 알림에 런북을 구현하세요.

SLI, SLO 및 오류 버짓은 무엇인가요?

SLI는 서비스 동작을 측정합니다(예: 요청 성공률). SLO는 목표 SLI 값입니다(예: 99.9% 성공). 오류 버짓은 허용되는 남은 실패 시간입니다. 함께 보면 데이터 기반 신뢰성 의사결정이 가능합니다.

開発者の詳細

作成者

sickn33

ライセンス

MIT

リポジトリ

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/observability-engineer

参照

main

ファイル構成

📄 SKILL.md