Habilidades observability-engineer

📊

observability-engineer

Name: observability-engineer
Author: sickn33

Seguro

Diseñar Sistemas de Observabilidad en Producción

Esta habilidad te ayuda a diseñar e implementar sistemas integrales de monitoreo, registro y trazado para aplicaciones empresariales. Proporciona orientación experta en gestión de SLI/SLO, trazado distribuido y flujos de trabajo de respuesta a incidentes.

Soporta: Claude Codex Code(CC)

📊 70 Adecuado

Descargar el ZIP de la skill

Subir en Claude

Ve a Configuración → Capacidades → Skills → Subir skill

Activa y empieza a usar

Pruébalo

Usando "observability-engineer". Design a monitoring strategy for our checkout service handling 100K orders daily

Resultado esperado:

Recolección de Métricas: Desplegar Prometheus con reglas de grabación para rendimiento de pedidos, percentiles de latencia (p50, p95, p99) y tasas de error por tipo
Paneles Clave: Crear vistas de resumen ejecutivo, tiempo real operacional y profundización de solución de problemas en Grafana
Alertas: Configurar alertas para latencia p99 > 2s, tasa de error > 1% y tasa de éxito de checkout < 99%
Trazado: Implementar auto-instrumentación OpenTelemetry con muestreo de trazas al 10% y trazado completo para errores
Registro: Registros JSON estructurados con ID de pedido, ID de usuario y latencia para correlación con trazas

Usando "observability-engineer". Define SLOs for our payment API with 99.9% availability target

Resultado esperado:

Definición de SLI: Solicitudes de pago exitosas / total de solicitudes de pago, medido en ventanas de 5 minutos
SLO: 99.9% de tasa de éxito en ventana deslizante de 30 días = 43.8 minutos de presupuesto de error permitido
Alertas de Presupuesto de Error: Alerta de tasa de consumo en umbrales 2x (87.6 min/día) y 10x (438 min/día)
Seguimiento de Consumo: Panel mostrando presupuesto de error restante, tasa de consumo diaria y fecha proyectada de violación

Auditoría de seguridad

Seguro

v1 • 2/24/2026

Prompt-only skill with no executable code. Static analysis scanned 0 files (0 lines) and detected 0 security issues. The skill provides observability engineering guidance through text prompts only. No dangerous patterns, no network requests, no file system access, and no external commands detected. Content describes legitimate monitoring, logging, and tracing system design.

Archivos escaneados

Líneas analizadas

hallazgos

Auditorías totales

No se encontraron problemas de seguridad

Auditado por: claude

Puntuación de calidad

Arquitectura

100

Mantenibilidad

Contenido

Comunidad

100

Seguridad

Cumplimiento de la especificación

Lo que puedes crear

Diseñar Arquitectura de Monitoreo de Microservicios

Crear una estrategia integral de monitoreo para un sistema de microservicios con 50+ servicios, incluyendo recolección de métricas, trazado distribuido y alertas.

Establecer Marco SLI/SLO

Definir indicadores de nivel de servicio, objetivos y presupuestos de error para servicios API con objetivos de disponibilidad del 99.9% y monitoreo de tasa de consumo.

Implementar Trazado Distribuido

Configurar trazado distribuido para una plataforma de comercio electrónico para identificar cuellos de botella de latencia y realizar análisis de causa raíz a través de límites de servicio.

Prueba estos prompts

Diseño de Monitoreo Básico

Design a monitoring strategy for a [service type] that handles [traffic volume] requests per day. Include metrics collection, logging approach, and alerting recommendations.

Definición de SLI/SLO

Help me define SLIs and SLOs for our [service name] API with [availability target]% availability. Include error budget calculation and burn rate alerts.

Configuración de Respuesta a Incidentes

Create an incident response workflow for [incident type] including alert routing, escalation procedures, runbook recommendations, and post-incident analysis process.

Optimización de Costos

Analyze our current observability setup and recommend cost optimization strategies. We currently use [tools] and generate [volume] of telemetry data daily.

Mejores prácticas

Comienza con resultados de negocio - define qué significa servicio confiable para los usuarios antes de elegir métricas
Implementa instrumentación progresiva: métricas primero para visibilidad, luego trazas para depuración, luego registros para detalle
Alerta sobre síntomas, no causas - notifica cuando los usuarios están impactados, no cuando fallan componentes internos

Evitar

Crear alertas para cada falla posible - conduce a fatiga de alertas y notificaciones ignoradas
Monitorear todo sin propósito - aumenta costos y reduce calidad de señal
Establecer SLOs demasiado ajustados - causa estrés innecesario y agotamiento de presupuesto

Preguntas frecuentes

¿Qué herramientas soporta esta habilidad?

La habilidad cubre herramientas importantes de observabilidad incluyendo Prometheus, Grafana, Jaeger, Zipkin, ELK Stack, Loki, DataDog, New Relic, CloudWatch, OpenTelemetry, PagerDuty y monitoreo nativo de la nube en AWS, Azure y GCP.

¿Puede esta habilidad desplegar infraestructura de monitoreo?

No. Esta habilidad proporciona orientación de diseño, recomendaciones de configuración y planes de implementación. El despliegue real requiere herramientas de infraestructura separadas como Terraform o Kubernetes.

¿Cómo comienzo con observabilidad?

Comienza identificando tus recorridos críticos de usuario y definiendo qué significa servicio confiable. Luego instrumenta para las señales doradas: latencia, tráfico, errores y saturación. Agrega trazas y registros incrementalmente.

¿Cuál es la diferencia entre monitoreo y observabilidad?

El monitoreo te dice cuándo algo está mal. La observabilidad te ayuda a entender por qué. Usa métricas y paneles para monitoreo, trazas para depuración y registros para investigación profunda.

¿Cómo reduzco el ruido de alertas?

Usa agrupación de alertas, deduplicación y reglas de supresión. Alerta sobre síntomas que impactan al usuario en lugar de fallas de componentes internos. Implementa runbooks para cada alerta para permitir triaje rápido.

¿Qué son SLIs, SLOs y presupuestos de error?

Los SLIs miden el comportamiento de tu servicio (ej. tasa de éxito de solicitudes). Los SLOs son tus valores objetivo de SLI (ej. 99.9% de éxito). Los presupuestos de error son el tiempo de falla permitido restante. Juntos permiten decisiones de confiabilidad basadas en datos.

Detalles del desarrollador

Autor

sickn33

Licencia

MIT

Repositorio

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/observability-engineer

Ref.

main

Estructura de archivos

📄 SKILL.md