Habilidades operating-production-services

🔧

operating-production-services

Name: operating-production-services
Author: Asmayaseen

Seguro ⚡ Contiene scripts📁 Acceso al sistema de archivos

Aplicar patrones SRE para confiabilidad en producción

Gestionar servicios de producción requiere métricas confiables, procesos claros de incidentes y aprendizaje sistemático de fallos. Esta habilidad proporciona definiciones de SLO, políticas de presupuesto de errores, plantillas de postmortem y patrones de alertas de Prometheus para ayudar a los equipos a mantener la confiabilidad del servicio.

Soporta: Claude Codex Code(CC)

🥉 76 Bronce

Descargar el ZIP de la skill

Subir en Claude

Ve a Configuración → Capacidades → Skills → Subir skill

Activa y empieza a usar

Pruébalo

Usando "operating-production-services". Ayúdame a definir objetivos de SLO para nuestro nuevo servicio de checkout

Resultado esperado:

SLOs sugeridos: 99.9% de disponibilidad (43 min/mes de inactividad), 99% de solicitudes bajo 500ms
Presupuesto de errores: 0.1% = 43 minutos por mes
Política: Congelar funcionalidades cuando el presupuesto caiga por debajo del 10%
Alertas recomendadas: Tasa de consumo multi-ventana (5m/1h) para detección rápida
Activador de postmortem: Cualquier incidente SEV1/SEV2 o interrupción superior a 15 minutos

Usando "operating-production-services". Escribe un postmortem para la interrupción de API de ayer

Resultado esperado:

Plantilla con resumen ejecutivo, cronología y secciones de impacto
Marco de los 5 Por Qués: Causa raíz rastreada al agotamiento del pool de conexiones
Elementos de acción con responsables, fechas de vencimiento y referencias de tickets
Tono sin culpas enfocado en mejoras del sistema, no en errores individuales

Usando "operating-production-services". Crea alertas de Prometheus para mi SLO de disponibilidad del 99.95%

Resultado esperado:

Reglas de grabación: sli:http_availability:ratio y cálculos de tasa de consumo
Alerta de consumo rápido: tasa 14.4x sobre ventana de 1h (activa crítico)
Alerta de consumo lento: tasa 6x sobre ventana de 6h (activa advertencia)
Alerta de presupuesto agotado: se activa cuando el presupuesto de errores se vuelve negativo

Auditoría de seguridad

Seguro

v5 • 1/16/2026

Pure documentation skill for SRE patterns. Static findings are false positives: backtick patterns are markdown formatting/Prometheus queries, not Ruby execution; weak crypto flags are Prometheus rate expressions using negation syntax; C2 keyword is a content hash. No network access, no command execution, verification script only reads files to validate structure.

Archivos escaneados

653

Líneas analizadas

hallazgos

Auditorías totales

Factores de riesgo

⚡ Contiene scripts (1)

scripts/verify.py:1-36

📁 Acceso al sistema de archivos (2)

scripts/verify.py:7-14 scripts/verify.py:20-26

Auditado por: claude Ver historial de auditorías →

Puntuación de calidad

Arquitectura

100

Mantenibilidad

Contenido

Comunidad

100

Seguridad

Cumplimiento de la especificación

Lo que puedes crear

Configurar alertas de SLO

Definir SLOs de disponibilidad y latencia con reglas de grabación de Prometheus y alertas de tasa de consumo multi-ventana

Escribir postmortems

Usar plantillas de postmortem sin culpas para documentar incidentes, identificar causas raíz y rastrear elementos de acción

Gestionar presupuestos de errores

Calcular presupuestos de errores, establecer políticas de presupuesto restante y prevenir degradación de confiabilidad

Prueba estos prompts

Definir objetivos de SLO

Ayúdame a definir objetivos de SLO para mi servicio API. Queremos 99.9% de disponibilidad y 500ms de latencia para el 99% de las solicitudes. Muéstrame el cálculo del presupuesto de errores y las expectativas de tiempo de inactividad.

Escribir postmortem de incidente

Escribe un postmortem sin culpas para una interrupción de base de datos de 2 horas que afectó a 5000 usuarios. La causa raíz fue el agotamiento del pool de conexiones. Incluye cronología, 5 Por Qués, evaluación de impacto y elementos de acción.

Crear alertas de SLO

Crea reglas de grabación de Prometheus y alertas de tasa de consumo multi-ventana para un SLO de disponibilidad del 99.9%. Incluye configuraciones de alertas de consumo rápido (14.4x) y consumo lento (6x).

Revisar respuesta a incidentes

Revisa el proceso de respuesta a incidentes de mi equipo. Tenemos clasificaciones SEV1-SEV3 pero tenemos problemas con fatiga de alertas y escalaciones lentas. Sugiere mejoras basadas en las mejores prácticas de SRE.

Mejores prácticas

Comienza con objetivos de SLO del 99.9% y ajusta según los patrones de consumo del presupuesto de errores a lo largo del tiempo
Usa alertas de tasa de consumo multi-ventana para reducir falsos positivos mientras mantienes detección rápida de problemas de confiabilidad
Escribe postmortems para todos los incidentes incluyendo casi-incidentes para identificar patrones de fallas antes de que se vuelvan críticos

Evitar

Aspirar a una confiabilidad del 100% elimina el presupuesto de errores y previene cualquier desarrollo de funcionalidades
Omitir postmortems para incidentes menores pierde oportunidades de mejorar la detección y prevención
Alertar sobre valores SLI directamente en lugar de tasas de consumo crea alertas ruidosas o lentas para activarse

Preguntas frecuentes

¿Con qué porcentaje de SLO debo comenzar?

Comienza con 99.9% que permite 43 minutos de inactividad por mes. Objetivos más altos cuestan exponencialmente más de mantener.

¿Cómo calculo el presupuesto de errores?

El presupuesto de errores es igual a 1 menos tu objetivo de SLO. Para un SLO del 99.9%, el presupuesto de errores es 0.1% que equivale a 43 minutos por mes.

¿Puede esta habilidad desplegar reglas de Prometheus?

No. La habilidad proporciona configuraciones de reglas de Prometheus como plantillas YAML. Debes desplegarlas usando tus herramientas existentes.

¿Están seguros mis datos con esta habilidad?

Sí. Esta es una habilidad solo de documentación. No lee datos de usuario, no hace llamadas de red y no escribe archivos.

¿Por qué usar alertas de tasa de consumo multi-ventana?

Las alertas de ventana única son demasiado ruidosas con ventanas cortas o demasiado lentas con ventanas largas. Multi-ventana combina ambos enfoques para detección más rápida con menos falsos positivos.

¿En qué se diferencia esto de las habilidades de scaffolding?

Esta habilidad se enfoca en patrones operacionales para ejecutar servicios. Usa habilidades de scaffolding para crear nuevos servicios y esta habilidad para gestionar su confiabilidad.

Detalles del desarrollador

Autor

Asmayaseen

Licencia

MIT

Repositorio

https://github.com/Asmayaseen/hackathon-2/tree/main/.claude/skills/operating-production-services

Ref.

main

Estructura de archivos

📁 references/

📄 slo-alerting.md

📁 scripts/

📄 verify.py

📄 SKILL.md