incident-responder
Реагирование на производственные инциденты
Получите экспертные рекомендации по управлению производственными инцидентами с использованием структурированных протоколов реагирования, методов исследования на основе наблюдаемости и процессов беспристрастного анализа постфактум для минимизации MTTR и повышения надёжности системы.
Descargar el ZIP de la skill
Subir en Claude
Ve a Configuración → Capacidades → Skills → Subir skill
Activa y empieza a usar
Pruébalo
Usando "incident-responder". У нас производственный инцидент. Платёжный сервис возвращает ошибки 500 для 30% пользователей.
Resultado esperado:
## Немедленная оценка
**Серьёзность: P1** — Основная функциональность деградирована, значительное влияние на пользователей
### 1. Создание управления инцидентами
- **Incident Commander**: [Назначить сейчас]
- **Technical Lead**: Начать исследование
- **Communication Lead**: Подготовить обновление для заинтересованных сторон
### 2. Быстрая оценка воздействия
- Воздействие на пользователей: ~30% платёжных запросов не выполняются
- Воздействие на бизнес: Вероятно влияние на выручку, возможно нарушение SLA
- Масштаб: Только платёжный сервис, проверить влияние на нижестоящие компоненты
### 3. Варианты немедленной стабилизации
- Проверить недавние развёртывания (последние 30 мин)
- Включить feature flag для отключения платежей при необходимости
- Увеличить количество подов платёжного сервиса при нехватке ресурсов
- Проверить работоспособность пула соединений с базой данных
### 4. Первая коммуникация
- Обновить status page в течение 15 минут
- Внутренне: Создать канал инцидента, уведомить дежурного
- Установить ожидание: Ежечасные обновления для P1
Usando "incident-responder". Помогите написать анализ постфактум для простоя базы данных, вызвавшего 2 часа простоя.
Resultado esperado:
## Шаблон анализа постфактум
### Сводка инцидента
- **Длительность**: [Начало] до [Конец] — 2 часа
- **Воздействие**: Полный простой платёжного сервиса
- **Затронутые пользователи**: 100% пользователей платежей
- **Уровень SEV**: P0
### Временная шкала (локальное время)
- 14:00 — Срабатывание алертов о повышенных уровнях ошибок
- 14:05 — Дежурный подтверждает, начинает исследование
- 14:15 — Корневая причина определена как исчерпание пула соединений БД
- 14:30 — Решение о перезапуске сервиса
- 15:45 — Сервис полностью восстановлен
- 16:00 — Инцидент закрыт
### Анализ корневых причин (пять почему)
1. Почему платёжный сервис не работал? Исчерпан пул соединений с базой данных
2. Почему пул был исчерпан? Приложение допускало утечку соединений во время шторма повторных попыток
3. Почему произошёл шторм повторных попыток? Отсутствовал circuit breaker на нижестоящем API
4. Почему circuit breaker отсутствовал? Функция не была реализована при редизайне
5. Почему? Пробел в требованиях к надёжности во время миграции
### Элементы действий
- [ ] Реализовать паттерн circuit breaker (Ответственный: Team A, Срок: 2 недели)
- [ ] Добавить алерты мониторинга пула соединений (Ответственный: Team B, Срок: 1 неделя)
- [ ] Обновить чеклист миграции для включения требований к надёжности (Ответственный: Team C, Срок: 1 неделя)
Auditoría de seguridad
SeguroPrompt-only skill containing educational content about SRE incident management practices. Static analysis scanned 0 files (0 lines) and detected 0 security issues. The skill provides guidance on incident response procedures, observability practices, and post-incident analysis. No executable code, no network calls, no file operations, and no prompt injection attempts detected. This is a safe, informational skill for incident response education.
Puntuación de calidad
Lo que puedes crear
Реагирование на активные производственные инциденты
Используйте во время активных инцидентов для соблюдения структурированных протоколов реагирования, оценки серьёзности, создания управления инцидентами и координации коммуникации с заинтересованными сторонами.
Анализ после инцидента и обучение
Содействуйте проведению беспристрастных анализов постфактум, направляя создание временной шкалы, анализ корневых причин с использованием техники «пять почему» и выявление действенных улучшений.
Практика и обучение SRE
Изучите лучшие практики управления инцидентами, современные методы наблюдаемости и паттерны надёжности для создания более устойчивых систем.
Prueba estos prompts
У нас производственный инцидент. Сервис [service name] испытывает [symptoms]. Помогите оценить серьёзность, создать управление инцидентами и определить немедленные шаги по стабилизации.
У нас инцидент [P1/P2], влияющий на [service]. Первоначальное исследование показывает [observed symptoms]. Направьте меня через исследование на основе наблюдаемости для выявления корневой причины.
Мы в середине инцидента [P0/P1]. Мне нужно подготовить обновления для [executives/customers/support team]. Что мне сообщить и как часто?
Помогите провести беспристрастный анализ постфактум для инцидента, где [brief description]. Направьте меня через создание временной шкалы, анализ корневых причин и определение элементов действий.
Mejores prácticas
- Немедленно создавайте структуру управления инцидентами — неясность владения задерживает решение
- Коммуницируйте проактивно и часто — заинтересованные стороны предпочитают обновления молчанию
- Во время активных инцидентов сначала фокусируйтесь на восстановлении сервиса, затем на анализе корневых причин
- Документируйте всё в реальном времени — временные шкалы и решения сложнее восстановить позже
Evitar
- Обвинение отдельных лиц в анализах постфактум — вместо этого фокусируйтесь на системах и процессах
- Пропуск управления инцидентами в пользу «все реагируют» — вызывает хаос координации
- Задержка коммуникации до получения полной информации — заинтересованным сторонам нужны своевременные обновления
- Реализация сложных исправлений во время активных инцидентов — предпочитайте минимально жизнеспособные исправления
Preguntas frecuentes
Как быстро мне нужно реагировать на инцидент P0?
В чём разница между incident commander и technical lead?
Как часто мне нужно отправлять обновления об инциденте?
Когда мне нужно объявлять инцидент разрешённым?
Как провести беспристрастный анализ постфактум?
Может ли этот навык выполнять фактические команды устранения?
Detalles del desarrollador
Autor
sickn33Licencia
MIT
Repositorio
https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/incident-responderRef.
main
Estructura de archivos
📄 SKILL.md