Habilidades observability-engineer
📊

observability-engineer

Seguro

Projetar Sistemas de Observabilidade de Produção

Esta habilidade ajuda você a projetar e implementar sistemas abrangentes de monitoramento, registro e rastreamento para aplicações empresariais. Fornece orientação especializada em gerenciamento de SLI/SLO, rastreamento distribuído e fluxos de trabalho de resposta a incidentes.

Suporta: Claude Codex Code(CC)
📊 71 Adequado
1

Baixar o ZIP da skill

2

Upload no Claude

Vá em Configurações → Capacidades → Skills → Upload skill

3

Ative e comece a usar

Testar

A utilizar "observability-engineer". Design a monitoring strategy for our checkout service handling 100K orders daily

Resultado esperado:

  • Metrics Collection: Deploy Prometheus with recording rules for order throughput, latency percentiles (p50, p95, p99), and error rates by type
  • Key Dashboards: Create executive overview, operational real-time, and troubleshooting drill-down views in Grafana
  • Alerting: Configure alerts for p99 latency > 2s, error rate > 1%, and checkout success rate < 99%
  • Tracing: Implement OpenTelemetry auto-instrumentation with trace sampling at 10% and full tracing for errors
  • Logging: Structured JSON logs with order ID, user ID, and latency for correlation with traces

A utilizar "observability-engineer". Define SLOs for our payment API with 99.9% availability target

Resultado esperado:

  • SLI Definition: Successful payment requests / total payment requests, measured over 5-minute windows
  • SLO: 99.9% success rate over 30-day rolling window = 43.8 minutes allowed error budget
  • Error Budget Alerts: Burn rate alert at 2x (87.6 min/day) and 10x (438 min/day) thresholds
  • Consumption Tracking: Dashboard showing error budget remaining, daily burn rate, and projected breach date

Auditoria de Segurança

Seguro
v1 • 2/24/2026

Prompt-only skill with no executable code. Static analysis scanned 0 files (0 lines) and detected 0 security issues. The skill provides observability engineering guidance through text prompts only. No dangerous patterns, no network requests, no file system access, and no external commands detected. Content describes legitimate monitoring, logging, and tracing system design.

0
Arquivos analisados
0
Linhas analisadas
0
achados
1
Total de auditorias
Nenhum problema de segurança encontrado
Auditado por: claude

Pontuação de qualidade

38
Arquitetura
100
Manutenibilidade
87
Conteúdo
31
Comunidade
100
Segurança
91
Conformidade com especificações

O Que Você Pode Construir

Projetar Arquitetura de Monitoramento de Microsserviços

Criar uma estratégia abrangente de monitoramento para um sistema de microsserviços com mais de 50 serviços, incluindo coleta de métricas, rastreamento distribuído e alertas.

Estabelecer Framework de SLI/SLO

Definir indicadores de nível de serviço, objetivos e orçamentos de erros para serviços de API com metas de disponibilidade de 99,9% e monitoramento de taxa de consumo.

Implementar Rastreamento Distribuído

Configurar rastreamento distribuído para uma plataforma de e-commerce para identificar gargalos de latência e realizar análise de causa raiz entre limites de serviço.

Tente Estes Prompts

Design Básico de Monitoramento
Projete uma estratégia de monitoramento para um [service type] que processa [traffic volume] solicitações por dia. Inclua coleta de métricas, abordagem de registro e recomendações de alertas.
Definição de SLI/SLO
Ajude-me a definir SLIs e SLOs para nossa API [service name] com [availability target]% de disponibilidade. Inclua cálculo de orçamento de erros e alertas de taxa de consumo.
Configuração de Resposta a Incidentes
Crie um fluxo de trabalho de resposta a incidentes para [incident type] incluindo roteamento de alertas, procedimentos de escalação, recomendações de runbook e processo de análise pós-incidente.
Otimização de Custos
Analise nossa configuração atual de observabilidade e recomende estratégias de otimização de custos. Atualmente usamos [tools] e geramos [volume] de telemetria diariamente.

Melhores Práticas

  • Comece com resultados de negócio - defina o que serviço confiável significa para os usuários antes de escolher métricas
  • Implemente instrumentação progressiva: métricas primeiro para visibilidade, depois rastreadores para depuração, depois logs para detalhes
  • Alerte sobre sintomas, não causas - notifique quando os usuários são afetados, não quando componentes internos falham

Evitar

  • Criar alertas para cada falha possível - leva à fadiga de alertas e notificações ignoradas
  • Monitorar tudo sem propósito - aumenta custos e reduz qualidade do sinal
  • Definir SLOs muito rigorosamente - causa estresse desnecessário e exaustão de orçamento

Perguntas Frequentes

Quais ferramentas esta habilidade suporta?
A habilidade cobre principais ferramentas de observabilidade incluindo Prometheus, Grafana, Jaeger, Zipkin, ELK Stack, Loki, DataDog, New Relic, CloudWatch, OpenTelemetry, PagerDuty e monitoramento nativo da nuvem em AWS, Azure e GCP.
Esta habilidade pode implanta infraestrutura de monitoramento?
Não. Esta habilidade fornece orientação de design, recomendações de configuração e planos de implementação. A implantação real requer ferramentas de infraestrutura separadas como Terraform ou Kubernetes.
Como posso começar com observabilidade?
Comece identificando suas jornadas críticas de usuário e definindo o que serviço confiável significa. Então instrumente para os sinais dourados: latência, tráfego, erros e saturação. Adicione rastreadores e logs incrementalmente.
Qual é a diferença entre monitoramento e observabilidade?
O monitoramento informa quando algo está errado. A observabilidade ajuda a entender o motivo. Use métricas e dashboards para monitoramento, rastreadores para depuração e logs para investigação detalhada.
Como reduzo o ruído de alertas?
Use agrupamento de alertas, deduplicação e regras de supressão. Alerte sobre sintomas que impactam o usuário em vez de falhas de componentes internos. Implemente runbooks para cada alerta para permitir triagem rápida.
O que são SLIs, SLOs e orçamentos de erros?
SLIs medem o comportamento do seu serviço (ex: taxa de sucesso de solicitações). SLOs são seus valores alvo de SLI (ex: 99,9% de sucesso). Orçamentos de erros são o tempo de falha restante permitido. Juntos eles permitem decisões de confiabilidade baseadas em dados.

Detalhes do Desenvolvedor

Estrutura de arquivos

📄 SKILL.md