Habilidades observability-engineer

📊

observability-engineer

Name: observability-engineer
Author: sickn33

Seguro

Projetar Sistemas de Observabilidade de Produção

Esta habilidade ajuda você a projetar e implementar sistemas abrangentes de monitoramento, registro e rastreamento para aplicações empresariais. Fornece orientação especializada em gerenciamento de SLI/SLO, rastreamento distribuído e fluxos de trabalho de resposta a incidentes.

Suporta: Claude Codex Code(CC)

📊 70 Adequado

Baixar o ZIP da skill

Upload no Claude

Vá em Configurações → Capacidades → Skills → Upload skill

Ative e comece a usar

Testar

A utilizar "observability-engineer". Design a monitoring strategy for our checkout service handling 100K orders daily

Resultado esperado:

Metrics Collection: Deploy Prometheus with recording rules for order throughput, latency percentiles (p50, p95, p99), and error rates by type
Key Dashboards: Create executive overview, operational real-time, and troubleshooting drill-down views in Grafana
Alerting: Configure alerts for p99 latency > 2s, error rate > 1%, and checkout success rate < 99%
Tracing: Implement OpenTelemetry auto-instrumentation with trace sampling at 10% and full tracing for errors
Logging: Structured JSON logs with order ID, user ID, and latency for correlation with traces

A utilizar "observability-engineer". Define SLOs for our payment API with 99.9% availability target

Resultado esperado:

SLI Definition: Successful payment requests / total payment requests, measured over 5-minute windows
SLO: 99.9% success rate over 30-day rolling window = 43.8 minutes allowed error budget
Error Budget Alerts: Burn rate alert at 2x (87.6 min/day) and 10x (438 min/day) thresholds
Consumption Tracking: Dashboard showing error budget remaining, daily burn rate, and projected breach date

Auditoria de Segurança

Seguro

v1 • 2/24/2026

Prompt-only skill with no executable code. Static analysis scanned 0 files (0 lines) and detected 0 security issues. The skill provides observability engineering guidance through text prompts only. No dangerous patterns, no network requests, no file system access, and no external commands detected. Content describes legitimate monitoring, logging, and tracing system design.

Arquivos analisados

Linhas analisadas

achados

Total de auditorias

Nenhum problema de segurança encontrado

Auditado por: claude

Pontuação de qualidade

Arquitetura

100

Manutenibilidade

Conteúdo

Comunidade

100

Segurança

Conformidade com especificações

O Que Você Pode Construir

Projetar Arquitetura de Monitoramento de Microsserviços

Criar uma estratégia abrangente de monitoramento para um sistema de microsserviços com mais de 50 serviços, incluindo coleta de métricas, rastreamento distribuído e alertas.

Estabelecer Framework de SLI/SLO

Definir indicadores de nível de serviço, objetivos e orçamentos de erros para serviços de API com metas de disponibilidade de 99,9% e monitoramento de taxa de consumo.

Implementar Rastreamento Distribuído

Configurar rastreamento distribuído para uma plataforma de e-commerce para identificar gargalos de latência e realizar análise de causa raiz entre limites de serviço.

Tente Estes Prompts

Design Básico de Monitoramento

Projete uma estratégia de monitoramento para um [service type] que processa [traffic volume] solicitações por dia. Inclua coleta de métricas, abordagem de registro e recomendações de alertas.

Definição de SLI/SLO

Ajude-me a definir SLIs e SLOs para nossa API [service name] com [availability target]% de disponibilidade. Inclua cálculo de orçamento de erros e alertas de taxa de consumo.

Configuração de Resposta a Incidentes

Crie um fluxo de trabalho de resposta a incidentes para [incident type] incluindo roteamento de alertas, procedimentos de escalação, recomendações de runbook e processo de análise pós-incidente.

Otimização de Custos

Analise nossa configuração atual de observabilidade e recomende estratégias de otimização de custos. Atualmente usamos [tools] e geramos [volume] de telemetria diariamente.

Melhores Práticas

Comece com resultados de negócio - defina o que serviço confiável significa para os usuários antes de escolher métricas
Implemente instrumentação progressiva: métricas primeiro para visibilidade, depois rastreadores para depuração, depois logs para detalhes
Alerte sobre sintomas, não causas - notifique quando os usuários são afetados, não quando componentes internos falham

Evitar

Criar alertas para cada falha possível - leva à fadiga de alertas e notificações ignoradas
Monitorar tudo sem propósito - aumenta custos e reduz qualidade do sinal
Definir SLOs muito rigorosamente - causa estresse desnecessário e exaustão de orçamento

Perguntas Frequentes

Quais ferramentas esta habilidade suporta?

A habilidade cobre principais ferramentas de observabilidade incluindo Prometheus, Grafana, Jaeger, Zipkin, ELK Stack, Loki, DataDog, New Relic, CloudWatch, OpenTelemetry, PagerDuty e monitoramento nativo da nuvem em AWS, Azure e GCP.

Esta habilidade pode implanta infraestrutura de monitoramento?

Não. Esta habilidade fornece orientação de design, recomendações de configuração e planos de implementação. A implantação real requer ferramentas de infraestrutura separadas como Terraform ou Kubernetes.

Como posso começar com observabilidade?

Comece identificando suas jornadas críticas de usuário e definindo o que serviço confiável significa. Então instrumente para os sinais dourados: latência, tráfego, erros e saturação. Adicione rastreadores e logs incrementalmente.

Qual é a diferença entre monitoramento e observabilidade?

O monitoramento informa quando algo está errado. A observabilidade ajuda a entender o motivo. Use métricas e dashboards para monitoramento, rastreadores para depuração e logs para investigação detalhada.

Como reduzo o ruído de alertas?

Use agrupamento de alertas, deduplicação e regras de supressão. Alerte sobre sintomas que impactam o usuário em vez de falhas de componentes internos. Implemente runbooks para cada alerta para permitir triagem rápida.

O que são SLIs, SLOs e orçamentos de erros?

SLIs medem o comportamento do seu serviço (ex: taxa de sucesso de solicitações). SLOs são seus valores alvo de SLI (ex: 99,9% de sucesso). Orçamentos de erros são o tempo de falha restante permitido. Juntos eles permitem decisões de confiabilidade baseadas em dados.

Detalhes do Desenvolvedor

Autor

sickn33

Licença

MIT

Repositório

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/observability-engineer

Referência

main

Estrutura de arquivos

📄 SKILL.md