Habilidades slo-implementation

📊

slo-implementation

Name: slo-implementation
Author: sickn33

Seguro

Implementar SLOs y Presupuestos de Error para SRE

También disponible en: wshobson

Equilibra la confiabilidad con la velocidad de desarrollo de funcionalidades utilizando objetivos SLO medibles y presupuestos de error. Deja de debatir sobre confiabilidad y comienza a medirla con prácticas SRE estándar de la industria.

Soporta: Claude Codex Code(CC)

📊 71 Adecuado

Descargar el ZIP de la skill

Subir en Claude

Ve a Configuración → Capacidades → Skills → Subir skill

Activa y empieza a usar

Pruébalo

Usando "slo-implementation". Ayúdame a definir SLIs y SLOs para mi servicio API. Necesito objetivos de disponibilidad y latencia.

Resultado esperado:

Aquí hay SLIs recomendados para tu API:

SLI de Disponibilidad:
- Solicitudes exitosas / Solicitudes totales
- Objetivo: 99.9% (permite 43.2 min/mes de tiempo de inactividad)
- PromQL: sum(rate(http_requests_total{status!~'5..'}[28d])) / sum(rate(http_requests_total[28d]))

SLI de Latencia (p95 < 500ms):
- Solicitudes bajo umbral / Solicitudes totales
- Objetivo: 99% (1% de solicitudes pueden ser lentas)
- PromQL: sum(rate(http_request_duration_seconds_bucket{le='0.5'}[28d])) / sum(rate(http_request_duration_seconds_count[28d]))

Presupuesto de Error:
- Presupuesto de 0.1% = 43.2 minutos/mes
- Implementa alertas de tasa de consumo para detectar cuando se consume el presupuesto demasiado rápido

Usando "slo-implementation". Crea reglas de alerta de Prometheus para detección de tasa de consumo multi-ventana.

Resultado esperado:

Reglas de Alerta de Tasa de Consumo Multi-Ventana:

Alerta de Consumo Rápido (Crítica):
- Ventana: 1 hora y confirmación de 5 minutos
- Umbral: tasa de consumo 14.4x
- Se activa cuando: Consumiendo 2% del presupuesto de error en 1 hora
- Acción: Notificar al ingeniero de guardia inmediatamente

Alerta de Consumo Lento (Advertencia):
- Ventana: 6 horas y confirmación de 30 minutos
- Umbral: tasa de consumo 6x
- Se activa cuando: Consumiendo 5% del presupuesto de error en 6 horas
- Acción: Crear ticket para el siguiente día hábil

Presupuesto de Error Agotado (Crítico):
- Activador: Presupuesto de error restante < 0%
- Duración: 5 minutos sostenidos
- Acción: Congelación de funcionalidades, todos enfocados en confiabilidad

Usando "slo-implementation". Diseña una política de presupuesto de error para un objetivo SLO del 99.9%.

Resultado esperado:

Política de Presupuesto de Error para SLO del 99.9%:

Presupuesto: 0.1% = 43.2 minutos por mes

Al 100% de presupuesto restante:
- Velocidad normal de desarrollo
- Todas las funcionalidades permitidas de lanzar

Al 50% de presupuesto restante:
- Posponer cambios no esenciales
- Requerir pruebas adicionales para lanzamientos
- Incrementar cobertura de monitoreo

Al 10% de presupuesto restante:
- Congelar funcionalidades no críticas
- Solo lanzamientos de seguridad y correcciones urgentes
- Reuniones diarias de confiabilidad

Al 0% de presupuesto restante:
- Congelación completa de funcionalidades
- Enfoque 100% en mejoras de confiabilidad
- Sin lanzamientos sin aprobación de SRE
- Análisis de causa raíz requerido

Auditoría de seguridad

Seguro

v1 • 2/25/2026

Static analysis detected 35 potential security issues, all of which are false positives. The flagged 'Ruby/shell backtick execution' patterns are Markdown code formatting (backticks) used for PromQL queries and YAML examples. The 'weak cryptographic algorithm' flags are documentation text and annotations, not actual encryption code. This skill contains only documentation with no executable code, network operations, or security vulnerabilities.

Archivos escaneados

344

Líneas analizadas

hallazgos

Auditorías totales

Problemas de riesgo bajo (2)

SKILL.md:38-45 SKILL.md:52-57 SKILL.md:98-115 SKILL.md:151-194 SKILL.md:198-240

False Positive: Code Block Formatting

Static analyzer flagged Markdown code blocks (using backticks) as 'Ruby/shell backtick execution'. These are documentation code examples for PromQL queries and YAML configurations, not executable shell commands.

SKILL.md:3 SKILL.md:215 SKILL.md:229 SKILL.md:239

False Positive: Documentation Text

Static analyzer flagged 'weak cryptographic algorithm' at lines 3, 215, 229, 239. These are plain text descriptions and YAML comments in documentation, not actual cryptographic implementations.

Auditado por: claude

Puntuación de calidad

Arquitectura

100

Mantenibilidad

Contenido

Comunidad

100

Seguridad

100

Cumplimiento de la especificación

Lo que puedes crear

Establecer Línea Base de Confiabilidad

Define SLIs y SLOs iniciales para un nuevo microservicio para establecer objetivos de confiabilidad medibles y crear alertas que detecten problemas reales sin fatiga por falsas alarmas.

Implementar Gobernanza de Presupuesto de Error

Crea políticas de presupuesto de error que congelan automáticamente despliegues riesgosos cuando la confiabilidad se degrada, ayudando a equilibrar la velocidad de desarrollo con los requisitos de estabilidad.

Reducir Fatiga de Alertas

Reemplaza alertas de umbral frágiles con alertas de tasa de consumo multi-ventana que solo se activan ante degradación significativa de confiabilidad, reduciendo el ruido de notificaciones en un 80%.

Prueba estos prompts

Definir SLOs Básicos

Ayúdame a definir SLIs y SLOs para mi servicio API. Necesito objetivos de disponibilidad y latencia.

Crear Política de Presupuesto de Error

Diseña una política de presupuesto de error para un objetivo SLO del 99.9%. Define acciones al 100%, 50%, 10% y 0% de presupuesto restante.

Construir Alertas SLO

Crea reglas de alerta de Prometheus para detección de tasa de consumo multi-ventana. Usa ventanas de consumo rápido (1h/5m) y consumo lento (6h/30m).

Revisar Cumplimiento de SLO

Analiza mis datos actuales de cumplimiento de SLO. Muestra el presupuesto de error restante, tendencias de tasa de consumo y recomienda si congelar lanzamientos de funcionalidades.

Mejores prácticas

Comienza con SLIs orientados al usuario que midan directamente la experiencia del cliente en lugar de métricas del backend
Establece SLOs alcanzables ligeramente por debajo del rendimiento actual para permitir variación normal y prevenir alertas constantes
Usa alertas de tasa de consumo multi-ventana (combina ventanas cortas y largas) para eliminar falsos positivos de picos transitorios
Revisa los SLOs trimestralmente para asegurar que aún reflejen las prioridades del negocio y las necesidades reales de los usuarios

Evitar

Establecer objetivos SLO al 100% de disponibilidad lo cual elimina todo el presupuesto de error y previene cualquier desarrollo de funcionalidades
Crear alertas sobre umbrales de métricas crudas en lugar de tasas de consumo, causando fatiga de alertas por fluctuaciones normales
Definir demasiados SLIs lo cual diluye el enfoque y hace imposible priorizar mejoras de confiabilidad
Implementar SLOs sin apoyo ejecutivo para políticas de presupuesto de error, haciendo la gobernanza inaplicable

Preguntas frecuentes

¿Cuál es la diferencia entre SLI, SLO y SLA?

SLI (Indicador de Nivel de Servicio) es una métrica medida como el porcentaje de disponibilidad. SLO (Objetivo de Nivel de Servicio) es tu objetivo interno para esa métrica, como 99.9% de disponibilidad. SLA (Acuerdo de Nivel de Servicio) es el compromiso externo que haces a los clientes, que debe ser menor que tu SLO interno para proporcionar un margen.

¿Por qué no debo apuntar al 100% de confiabilidad?

La confiabilidad del 100% no deja presupuesto de error, lo que significa que cualquier incidente viola inmediatamente tu SLO. Esto previene todo el desarrollo de funcionalidades ya que no puedes asumir ningún riesgo. Un objetivo del 99.9% permite 43 minutos de tiempo de inactividad por mes para mantenimiento y experimentación manteniendo una excelente experiencia de usuario.

¿Cómo elijo el porcentaje de SLO adecuado?

Analiza tu rendimiento actual durante 30 días, establece el SLO ligeramente por debajo de esa línea base. Considera las expectativas de los usuarios, puntos de referencia de competidores e impacto de negocio. Comienza de manera conservadora (99%) y ajústalo a medida que generas confianza. El objetivo son objetivos alcanzables que detecten problemas reales, no la perfección.

¿Qué es la alerta de tasa de consumo multi-ventana?

Las alertas multi-ventana requieren que tanto una ventana corta (como 1 hora) como una ventana larga (como 6 horas) excedan simultáneamente los umbrales de tasa de consumo. Esto elimina falsos positivos de picos breves mientras detecta degradación sostenida. Por ejemplo, alerta solo si la tasa de consumo excede 14.4x tanto en ventanas de 1 hora como de 5 minutos.

¿Cómo funciona la gobernanza de presupuesto de error?

Los presupuestos de error traducen los SLOs en políticas de desarrollo accionables. Cuando tienes presupuesto restante, lanza funcionalidades normalmente. A medida que el presupuesto disminuye, congela cambios riesgosos. Al 0% de presupuesto, detén todas las funcionalidades hasta que la confiabilidad mejore. Esto crea un ciclo de retroalimentación automático que equilibra innovación y estabilidad.

¿Qué herramientas necesito para implementar SLOs?

Necesitas un sistema de métricas (Prometheus recomendado), visualización (Grafana) y alertas (Alertmanager). Esta habilidad proporciona las consultas PromQL, reglas de registro y configuraciones de alerta. Despliega esto en tu pila de monitoreo existente, luego construye tableros para rastrear el cumplimiento.

Detalles del desarrollador

Autor

sickn33

Licencia

MIT

Repositorio

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/slo-implementation

Ref.

main

Estructura de archivos

📄 SKILL.md