Compétences operating-production-services
🔧

operating-production-services

Sûr ⚡ Contient des scripts📁 Accès au système de fichiers

Aplicar patrones SRE para confiabilidad en producción

Gestionar servicios de producción requiere métricas confiables, procesos claros de incidentes y aprendizaje sistemático de fallos. Esta habilidad proporciona definiciones de SLO, políticas de presupuesto de errores, plantillas de postmortem y patrones de alertas de Prometheus para ayudar a los equipos a mantener la confiabilidad del servicio.

Prend en charge: Claude Codex Code(CC)
🥈 77 Argent
1

Télécharger le ZIP du skill

2

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

3

Activez et commencez à utiliser

Tester

Utilisation de "operating-production-services". Ayúdame a definir objetivos de SLO para nuestro nuevo servicio de checkout

Résultat attendu:

  • SLOs sugeridos: 99.9% de disponibilidad (43 min/mes de inactividad), 99% de solicitudes bajo 500ms
  • Presupuesto de errores: 0.1% = 43 minutos por mes
  • Política: Congelar funcionalidades cuando el presupuesto caiga por debajo del 10%
  • Alertas recomendadas: Tasa de consumo multi-ventana (5m/1h) para detección rápida
  • Activador de postmortem: Cualquier incidente SEV1/SEV2 o interrupción superior a 15 minutos

Utilisation de "operating-production-services". Escribe un postmortem para la interrupción de API de ayer

Résultat attendu:

  • Plantilla con resumen ejecutivo, cronología y secciones de impacto
  • Marco de los 5 Por Qués: Causa raíz rastreada al agotamiento del pool de conexiones
  • Elementos de acción con responsables, fechas de vencimiento y referencias de tickets
  • Tono sin culpas enfocado en mejoras del sistema, no en errores individuales

Utilisation de "operating-production-services". Crea alertas de Prometheus para mi SLO de disponibilidad del 99.95%

Résultat attendu:

  • Reglas de grabación: sli:http_availability:ratio y cálculos de tasa de consumo
  • Alerta de consumo rápido: tasa 14.4x sobre ventana de 1h (activa crítico)
  • Alerta de consumo lento: tasa 6x sobre ventana de 6h (activa advertencia)
  • Alerta de presupuesto agotado: se activa cuando el presupuesto de errores se vuelve negativo

Audit de sécurité

Sûr
v5 • 1/16/2026

Pure documentation skill for SRE patterns. Static findings are false positives: backtick patterns are markdown formatting/Prometheus queries, not Ruby execution; weak crypto flags are Prometheus rate expressions using negation syntax; C2 keyword is a content hash. No network access, no command execution, verification script only reads files to validate structure.

4
Fichiers analysés
653
Lignes analysées
2
résultats
5
Total des audits

Facteurs de risque

⚡ Contient des scripts (1)
📁 Accès au système de fichiers (2)

Score de qualité

64
Architecture
100
Maintenabilité
87
Contenu
30
Communauté
100
Sécurité
91
Conformité aux spécifications

Ce que vous pouvez construire

Configurar alertas de SLO

Definir SLOs de disponibilidad y latencia con reglas de grabación de Prometheus y alertas de tasa de consumo multi-ventana

Escribir postmortems

Usar plantillas de postmortem sin culpas para documentar incidentes, identificar causas raíz y rastrear elementos de acción

Gestionar presupuestos de errores

Calcular presupuestos de errores, establecer políticas de presupuesto restante y prevenir degradación de confiabilidad

Essayez ces prompts

Definir objetivos de SLO
Ayúdame a definir objetivos de SLO para mi servicio API. Queremos 99.9% de disponibilidad y 500ms de latencia para el 99% de las solicitudes. Muéstrame el cálculo del presupuesto de errores y las expectativas de tiempo de inactividad.
Escribir postmortem de incidente
Escribe un postmortem sin culpas para una interrupción de base de datos de 2 horas que afectó a 5000 usuarios. La causa raíz fue el agotamiento del pool de conexiones. Incluye cronología, 5 Por Qués, evaluación de impacto y elementos de acción.
Crear alertas de SLO
Crea reglas de grabación de Prometheus y alertas de tasa de consumo multi-ventana para un SLO de disponibilidad del 99.9%. Incluye configuraciones de alertas de consumo rápido (14.4x) y consumo lento (6x).
Revisar respuesta a incidentes
Revisa el proceso de respuesta a incidentes de mi equipo. Tenemos clasificaciones SEV1-SEV3 pero tenemos problemas con fatiga de alertas y escalaciones lentas. Sugiere mejoras basadas en las mejores prácticas de SRE.

Bonnes pratiques

  • Comienza con objetivos de SLO del 99.9% y ajusta según los patrones de consumo del presupuesto de errores a lo largo del tiempo
  • Usa alertas de tasa de consumo multi-ventana para reducir falsos positivos mientras mantienes detección rápida de problemas de confiabilidad
  • Escribe postmortems para todos los incidentes incluyendo casi-incidentes para identificar patrones de fallas antes de que se vuelvan críticos

Éviter

  • Aspirar a una confiabilidad del 100% elimina el presupuesto de errores y previene cualquier desarrollo de funcionalidades
  • Omitir postmortems para incidentes menores pierde oportunidades de mejorar la detección y prevención
  • Alertar sobre valores SLI directamente en lugar de tasas de consumo crea alertas ruidosas o lentas para activarse

Foire aux questions

¿Con qué porcentaje de SLO debo comenzar?
Comienza con 99.9% que permite 43 minutos de inactividad por mes. Objetivos más altos cuestan exponencialmente más de mantener.
¿Cómo calculo el presupuesto de errores?
El presupuesto de errores es igual a 1 menos tu objetivo de SLO. Para un SLO del 99.9%, el presupuesto de errores es 0.1% que equivale a 43 minutos por mes.
¿Puede esta habilidad desplegar reglas de Prometheus?
No. La habilidad proporciona configuraciones de reglas de Prometheus como plantillas YAML. Debes desplegarlas usando tus herramientas existentes.
¿Están seguros mis datos con esta habilidad?
Sí. Esta es una habilidad solo de documentación. No lee datos de usuario, no hace llamadas de red y no escribe archivos.
¿Por qué usar alertas de tasa de consumo multi-ventana?
Las alertas de ventana única son demasiado ruidosas con ventanas cortas o demasiado lentas con ventanas largas. Multi-ventana combina ambos enfoques para detección más rápida con menos falsos positivos.
¿En qué se diferencia esto de las habilidades de scaffolding?
Esta habilidad se enfoca en patrones operacionales para ejecutar servicios. Usa habilidades de scaffolding para crear nuevos servicios y esta habilidad para gestionar su confiabilidad.

Détails du développeur

Structure de fichiers