slo-implementation
Implementar SLOs e Orçamentos de Erro para SRE
Также доступно от: wshobson
Equilibre confiabilidade com velocidade de recursos usando metas SLO mensuráveis e orçamentos de erro. Pare de debater confiabilidade e comece a medi-la com práticas SRE padrão da indústria.
Скачать ZIP навыка
Загрузить в Claude
Перейдите в Settings → Capabilities → Skills → Upload skill
Включите и начните использовать
Протестировать
Использование «slo-implementation». Help me define SLIs and SLOs for my API service. I need availability and latency targets.
Ожидаемый результат:
Aqui estão os SLIs recomendados para sua API:
SLI de Disponibilidade:
- Solicitações bem-sucedidas / Total de solicitações
- Meta: 99,9% (permite 43,2 min/mês de inatividade)
- PromQL: sum(rate(http_requests_total{status!~'5..'}[28d])) / sum(rate(http_requests_total[28d]))
SLI de Latência (p95 < 500ms):
- Solicitações abaixo do limiar / Total de solicitações
- Meta: 99% (1% das solicitações podem ser lentas)
- PromQL: sum(rate(http_request_duration_seconds_bucket{le='0.5'}[28d])) / sum(rate(http_request_duration_seconds_count[28d]))
Orçamento de Erro:
- 0,1% de orçamento = 43,2 minutos/mês
- Implemente alertas de taxa de consumo para detectar quando consumindo o orçamento muito rapidamente
Использование «slo-implementation». Create Prometheus alerting rules for multi-window burn rate detection.
Ожидаемый результат:
Regras de Alerta de Taxa de Consumo de Múltiplas Janelas:
Alerta de Consumo Rápido (Crítico):
- Janela: 1 hora e confirmação de 5 minutos
- Limiar: taxa de consumo de 14,4x
- Dispara quando: Consumindo 2% do orçamento de erro em 1 hora
- Ação: Paginar engenheiro de plantão imediatamente
Alerta de Consumo Lento (Aviso):
- Janela: 6 horas e confirmação de 30 minutos
- Limiar: taxa de consumo de 6x
- Dispara quando: Consumindo 5% do orçamento de erro em 6 horas
- Ação: Criar ticket para o próximo dia útil
Orçamento de Erro Esgotado (Crítico):
- Gatilho: Orçamento de erro restante < 0%
- Duração: 5 minutos sustentados
- Ação: Congelamento de recursos, todos mãos na confiabilidade
Использование «slo-implementation». Design an error budget policy for a 99.9% SLO target.
Ожидаемый результат:
Política de Orçamento de Erro para SLO de 99,9%:
Orçamento: 0,1% = 43,2 minutos por mês
Em 100% de orçamento restante:
- Velocidade normal de desenvolvimento
- Todos os recursos permitidos para ship
Em 50% de orçamento restante:
- Adiar mudanças não essenciais
- Requer testes extras para releases
- Aumentar cobertura de monitoramento
Em 10% de orçamento restante:
- Congelar recursos não críticos
- Apenas releases de segurança e hotfixes
- Reuniões diárias de confiabilidade
Em 0% de orçamento restante:
- Congelamento completo de recursos
- Foco 100% em melhorias de confiabilidade
- Sem releases sem aprovação do SRE
- Análise de causa raiz obrigatória
Аудит безопасности
БезопасноStatic analysis detected 35 potential security issues, all of which are false positives. The flagged 'Ruby/shell backtick execution' patterns are Markdown code formatting (backticks) used for PromQL queries and YAML examples. The 'weak cryptographic algorithm' flags are documentation text and annotations, not actual encryption code. This skill contains only documentation with no executable code, network operations, or security vulnerabilities.
Проблемы низкого риска (2)
Оценка качества
Что вы можете построить
Estabelecer Linha de Base de Confiabilidade
Definir SLIs e SLOs iniciais para um novo microsserviço para estabelecer metas de confiabilidade mensuráveis e criar alertas que capturam problemas reais sem fadiga de falsos alarmes.
Implementar Governança de Orçamento de Erro
Criar políticas de orçamento de erro que congelam automaticamente implantações arriscadas quando a confiabilidade degrada, ajudando a equilibrar velocidade de recursos com requisitos de estabilidade.
Reduzir Fadiga de Alertas
Substituir alertas de limiar frágeis por alertas de taxa de consumo de múltiplas janelas que só disparam em degradações significativas de confiabilidade, reduzindo o ruído de notificações em 80%.
Попробуйте эти промпты
Ajude-me a definir SLIs e SLOs para meu serviço de API. Preciso de metas de disponibilidade e latência.
Desenhe uma política de orçamento de erro para uma meta SLO de 99,9%. Defina ações em 100%, 50%, 10% e 0% de orçamento restante.
Crie regras de alerta do Prometheus para detecção de taxa de consumo de múltiplas janelas. Use janelas de consumo rápido (1h/5m) e lento (6h/30m).
Analise meus dados atuais de conformidade de SLO. Mostre o orçamento de erro restante, tendências de taxa de consumo e recomende se deve congelar releases de recursos.
Лучшие практики
- Comece com SLIs voltados ao usuário que medem diretamente a experiência do cliente em vez de métricas de backend
- Defina SLOs alcançáveis ligeiramente abaixo do desempenho atual para permitir variação normal e prevenir alertas constantes
- Use alertas de taxa de consumo de múltiplas janelas (combine janelas curtas e longas) para eliminar falsos positivos de picos transitórios
- Revise SLOs trimestralmente para garantir que ainda refletem prioridades de negócios e necessidades reais dos usuários
Избегать
- Definir metas SLO em 100% de disponibilidade, o que elimina todo o orçamento de erro e impede qualquer desenvolvimento de recursos
- Criar alertas em limiares de métricas brutas em vez de taxas de consumo, causando fadiga de alertas por flutuações normais
- Definir muitos SLIs, o que dilui o foco e torna impossível priorizar melhorias de confiabilidade
- Implementar SLOs sem apoio executivo para políticas de orçamento de erro, tornando a governança inaplicável
Часто задаваемые вопросы
Qual é a diferença entre SLI, SLO e SLA?
Por que não devo mirar em 100% de confiabilidade?
Como escolho a porcentagem certa de SLO?
O que é alerta de taxa de consumo de múltiplas janelas?
Como funciona a governança de orçamento de erro?
Que ferramentas preciso para implementar SLOs?
Сведения для разработчиков
Автор
sickn33Лицензия
MIT
Репозиторий
https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/slo-implementationСсылка
main
Структура файлов
📄 SKILL.md