المهارات observability-engineer
📊

observability-engineer

آمن

Diseñar Sistemas de Observabilidad en Producción

Esta habilidad te ayuda a diseñar e implementar sistemas integrales de monitoreo, registro y trazado para aplicaciones empresariales. Proporciona orientación experta en gestión de SLI/SLO, trazado distribuido y flujos de trabajo de respuesta a incidentes.

يدعم: Claude Codex Code(CC)
📊 71 كافٍ
1

تنزيل ZIP المهارة

2

رفع في Claude

اذهب إلى Settings → Capabilities → Skills → Upload skill

3

فعّل وابدأ الاستخدام

اختبرها

استخدام "observability-engineer". Design a monitoring strategy for our checkout service handling 100K orders daily

النتيجة المتوقعة:

  • Recolección de Métricas: Desplegar Prometheus con reglas de grabación para rendimiento de pedidos, percentiles de latencia (p50, p95, p99) y tasas de error por tipo
  • Paneles Clave: Crear vistas de resumen ejecutivo, tiempo real operacional y profundización de solución de problemas en Grafana
  • Alertas: Configurar alertas para latencia p99 > 2s, tasa de error > 1% y tasa de éxito de checkout < 99%
  • Trazado: Implementar auto-instrumentación OpenTelemetry con muestreo de trazas al 10% y trazado completo para errores
  • Registro: Registros JSON estructurados con ID de pedido, ID de usuario y latencia para correlación con trazas

استخدام "observability-engineer". Define SLOs for our payment API with 99.9% availability target

النتيجة المتوقعة:

  • Definición de SLI: Solicitudes de pago exitosas / total de solicitudes de pago, medido en ventanas de 5 minutos
  • SLO: 99.9% de tasa de éxito en ventana deslizante de 30 días = 43.8 minutos de presupuesto de error permitido
  • Alertas de Presupuesto de Error: Alerta de tasa de consumo en umbrales 2x (87.6 min/día) y 10x (438 min/día)
  • Seguimiento de Consumo: Panel mostrando presupuesto de error restante, tasa de consumo diaria y fecha proyectada de violación

التدقيق الأمني

آمن
v1 • 2/24/2026

Prompt-only skill with no executable code. Static analysis scanned 0 files (0 lines) and detected 0 security issues. The skill provides observability engineering guidance through text prompts only. No dangerous patterns, no network requests, no file system access, and no external commands detected. Content describes legitimate monitoring, logging, and tracing system design.

0
الملفات التي تم فحصها
0
الأسطر التي تم تحليلها
0
النتائج
1
إجمالي عمليات التدقيق
لا توجد مشكلات أمنية
تم تدقيقه بواسطة: claude

درجة الجودة

38
الهندسة المعمارية
100
قابلية الصيانة
87
المحتوى
31
المجتمع
100
الأمان
91
الامتثال للمواصفات

ماذا يمكنك بناءه

Diseñar Arquitectura de Monitoreo de Microservicios

Crear una estrategia integral de monitoreo para un sistema de microservicios con 50+ servicios, incluyendo recolección de métricas, trazado distribuido y alertas.

Establecer Marco SLI/SLO

Definir indicadores de nivel de servicio, objetivos y presupuestos de error para servicios API con objetivos de disponibilidad del 99.9% y monitoreo de tasa de consumo.

Implementar Trazado Distribuido

Configurar trazado distribuido para una plataforma de comercio electrónico para identificar cuellos de botella de latencia y realizar análisis de causa raíz a través de límites de servicio.

جرّب هذه الموجهات

Diseño de Monitoreo Básico
Design a monitoring strategy for a [service type] that handles [traffic volume] requests per day. Include metrics collection, logging approach, and alerting recommendations.
Definición de SLI/SLO
Help me define SLIs and SLOs for our [service name] API with [availability target]% availability. Include error budget calculation and burn rate alerts.
Configuración de Respuesta a Incidentes
Create an incident response workflow for [incident type] including alert routing, escalation procedures, runbook recommendations, and post-incident analysis process.
Optimización de Costos
Analyze our current observability setup and recommend cost optimization strategies. We currently use [tools] and generate [volume] of telemetry data daily.

أفضل الممارسات

  • Comienza con resultados de negocio - define qué significa servicio confiable para los usuarios antes de elegir métricas
  • Implementa instrumentación progresiva: métricas primero para visibilidad, luego trazas para depuración, luego registros para detalle
  • Alerta sobre síntomas, no causas - notifica cuando los usuarios están impactados, no cuando fallan componentes internos

تجنب

  • Crear alertas para cada falla posible - conduce a fatiga de alertas y notificaciones ignoradas
  • Monitorear todo sin propósito - aumenta costos y reduce calidad de señal
  • Establecer SLOs demasiado ajustados - causa estrés innecesario y agotamiento de presupuesto

الأسئلة المتكررة

¿Qué herramientas soporta esta habilidad?
La habilidad cubre herramientas importantes de observabilidad incluyendo Prometheus, Grafana, Jaeger, Zipkin, ELK Stack, Loki, DataDog, New Relic, CloudWatch, OpenTelemetry, PagerDuty y monitoreo nativo de la nube en AWS, Azure y GCP.
¿Puede esta habilidad desplegar infraestructura de monitoreo?
No. Esta habilidad proporciona orientación de diseño, recomendaciones de configuración y planes de implementación. El despliegue real requiere herramientas de infraestructura separadas como Terraform o Kubernetes.
¿Cómo comienzo con observabilidad?
Comienza identificando tus recorridos críticos de usuario y definiendo qué significa servicio confiable. Luego instrumenta para las señales doradas: latencia, tráfico, errores y saturación. Agrega trazas y registros incrementalmente.
¿Cuál es la diferencia entre monitoreo y observabilidad?
El monitoreo te dice cuándo algo está mal. La observabilidad te ayuda a entender por qué. Usa métricas y paneles para monitoreo, trazas para depuración y registros para investigación profunda.
¿Cómo reduzco el ruido de alertas?
Usa agrupación de alertas, deduplicación y reglas de supresión. Alerta sobre síntomas que impactan al usuario en lugar de fallas de componentes internos. Implementa runbooks para cada alerta para permitir triaje rápido.
¿Qué son SLIs, SLOs y presupuestos de error?
Los SLIs miden el comportamiento de tu servicio (ej. tasa de éxito de solicitudes). Los SLOs son tus valores objetivo de SLI (ej. 99.9% de éxito). Los presupuestos de error son el tiempo de falla permitido restante. Juntos permiten decisiones de confiabilidad basadas en datos.

تفاصيل المطور

بنية الملفات

📄 SKILL.md