operating-production-services
Aplicar patrones SRE para confiabilidad en producción
Gestionar servicios de producción requiere métricas confiables, procesos claros de incidentes y aprendizaje sistemático de fallos. Esta habilidad proporciona definiciones de SLO, políticas de presupuesto de errores, plantillas de postmortem y patrones de alertas de Prometheus para ayudar a los equipos a mantener la confiabilidad del servicio.
Télécharger le ZIP du skill
Importer dans Claude
Allez dans Paramètres → Capacités → Skills → Importer un skill
Activez et commencez à utiliser
Tester
Utilisation de "operating-production-services". Ayúdame a definir objetivos de SLO para nuestro nuevo servicio de checkout
Résultat attendu:
- SLOs sugeridos: 99.9% de disponibilidad (43 min/mes de inactividad), 99% de solicitudes bajo 500ms
- Presupuesto de errores: 0.1% = 43 minutos por mes
- Política: Congelar funcionalidades cuando el presupuesto caiga por debajo del 10%
- Alertas recomendadas: Tasa de consumo multi-ventana (5m/1h) para detección rápida
- Activador de postmortem: Cualquier incidente SEV1/SEV2 o interrupción superior a 15 minutos
Utilisation de "operating-production-services". Escribe un postmortem para la interrupción de API de ayer
Résultat attendu:
- Plantilla con resumen ejecutivo, cronología y secciones de impacto
- Marco de los 5 Por Qués: Causa raíz rastreada al agotamiento del pool de conexiones
- Elementos de acción con responsables, fechas de vencimiento y referencias de tickets
- Tono sin culpas enfocado en mejoras del sistema, no en errores individuales
Utilisation de "operating-production-services". Crea alertas de Prometheus para mi SLO de disponibilidad del 99.95%
Résultat attendu:
- Reglas de grabación: sli:http_availability:ratio y cálculos de tasa de consumo
- Alerta de consumo rápido: tasa 14.4x sobre ventana de 1h (activa crítico)
- Alerta de consumo lento: tasa 6x sobre ventana de 6h (activa advertencia)
- Alerta de presupuesto agotado: se activa cuando el presupuesto de errores se vuelve negativo
Audit de sécurité
SûrPure documentation skill for SRE patterns. Static findings are false positives: backtick patterns are markdown formatting/Prometheus queries, not Ruby execution; weak crypto flags are Prometheus rate expressions using negation syntax; C2 keyword is a content hash. No network access, no command execution, verification script only reads files to validate structure.
Facteurs de risque
⚡ Contient des scripts (1)
📁 Accès au système de fichiers (2)
Score de qualité
Ce que vous pouvez construire
Configurar alertas de SLO
Definir SLOs de disponibilidad y latencia con reglas de grabación de Prometheus y alertas de tasa de consumo multi-ventana
Escribir postmortems
Usar plantillas de postmortem sin culpas para documentar incidentes, identificar causas raíz y rastrear elementos de acción
Gestionar presupuestos de errores
Calcular presupuestos de errores, establecer políticas de presupuesto restante y prevenir degradación de confiabilidad
Essayez ces prompts
Ayúdame a definir objetivos de SLO para mi servicio API. Queremos 99.9% de disponibilidad y 500ms de latencia para el 99% de las solicitudes. Muéstrame el cálculo del presupuesto de errores y las expectativas de tiempo de inactividad.
Escribe un postmortem sin culpas para una interrupción de base de datos de 2 horas que afectó a 5000 usuarios. La causa raíz fue el agotamiento del pool de conexiones. Incluye cronología, 5 Por Qués, evaluación de impacto y elementos de acción.
Crea reglas de grabación de Prometheus y alertas de tasa de consumo multi-ventana para un SLO de disponibilidad del 99.9%. Incluye configuraciones de alertas de consumo rápido (14.4x) y consumo lento (6x).
Revisa el proceso de respuesta a incidentes de mi equipo. Tenemos clasificaciones SEV1-SEV3 pero tenemos problemas con fatiga de alertas y escalaciones lentas. Sugiere mejoras basadas en las mejores prácticas de SRE.
Bonnes pratiques
- Comienza con objetivos de SLO del 99.9% y ajusta según los patrones de consumo del presupuesto de errores a lo largo del tiempo
- Usa alertas de tasa de consumo multi-ventana para reducir falsos positivos mientras mantienes detección rápida de problemas de confiabilidad
- Escribe postmortems para todos los incidentes incluyendo casi-incidentes para identificar patrones de fallas antes de que se vuelvan críticos
Éviter
- Aspirar a una confiabilidad del 100% elimina el presupuesto de errores y previene cualquier desarrollo de funcionalidades
- Omitir postmortems para incidentes menores pierde oportunidades de mejorar la detección y prevención
- Alertar sobre valores SLI directamente en lugar de tasas de consumo crea alertas ruidosas o lentas para activarse
Foire aux questions
¿Con qué porcentaje de SLO debo comenzar?
¿Cómo calculo el presupuesto de errores?
¿Puede esta habilidad desplegar reglas de Prometheus?
¿Están seguros mis datos con esta habilidad?
¿Por qué usar alertas de tasa de consumo multi-ventana?
¿En qué se diferencia esto de las habilidades de scaffolding?
Détails du développeur
Auteur
AsmayaseenLicence
MIT
Dépôt
https://github.com/Asmayaseen/hackathon-2/tree/main/.claude/skills/operating-production-servicesRéf
main
Structure de fichiers