Навыки incident-responder

🚨

incident-responder

Name: incident-responder
Author: sickn33

Безопасно

Реагирование на производственные инциденты

Получите экспертные рекомендации по управлению производственными инцидентами с использованием структурированных протоколов реагирования, методов исследования на основе наблюдаемости и процессов беспристрастного анализа постфактум для минимизации MTTR и повышения надёжности системы.

Поддерживает: Claude Codex Code(CC)

📊 70 Адекватно

Скачать ZIP навыка

Загрузить в Claude

Перейдите в Settings → Capabilities → Skills → Upload skill

Включите и начните использовать

Протестировать

Использование «incident-responder». У нас производственный инцидент. Платёжный сервис возвращает ошибки 500 для 30% пользователей.

Ожидаемый результат:

## Немедленная оценка

**Серьёзность: P1** — Основная функциональность деградирована, значительное влияние на пользователей

### 1. Создание управления инцидентами
- **Incident Commander**: [Назначить сейчас]
- **Technical Lead**: Начать исследование
- **Communication Lead**: Подготовить обновление для заинтересованных сторон

### 2. Быстрая оценка воздействия
- Воздействие на пользователей: ~30% платёжных запросов не выполняются
- Воздействие на бизнес: Вероятно влияние на выручку, возможно нарушение SLA
- Масштаб: Только платёжный сервис, проверить влияние на нижестоящие компоненты

### 3. Варианты немедленной стабилизации
- Проверить недавние развёртывания (последние 30 мин)
- Включить feature flag для отключения платежей при необходимости
- Увеличить количество подов платёжного сервиса при нехватке ресурсов
- Проверить работоспособность пула соединений с базой данных

### 4. Первая коммуникация
- Обновить status page в течение 15 минут
- Внутренне: Создать канал инцидента, уведомить дежурного
- Установить ожидание: Ежечасные обновления для P1

Использование «incident-responder». Помогите написать анализ постфактум для простоя базы данных, вызвавшего 2 часа простоя.

Ожидаемый результат:

## Шаблон анализа постфактум

### Сводка инцидента
- **Длительность**: [Начало] до [Конец] — 2 часа
- **Воздействие**: Полный простой платёжного сервиса
- **Затронутые пользователи**: 100% пользователей платежей
- **Уровень SEV**: P0

### Временная шкала (локальное время)
- 14:00 — Срабатывание алертов о повышенных уровнях ошибок
- 14:05 — Дежурный подтверждает, начинает исследование
- 14:15 — Корневая причина определена как исчерпание пула соединений БД
- 14:30 — Решение о перезапуске сервиса
- 15:45 — Сервис полностью восстановлен
- 16:00 — Инцидент закрыт

### Анализ корневых причин (пять почему)
1. Почему платёжный сервис не работал? Исчерпан пул соединений с базой данных
2. Почему пул был исчерпан? Приложение допускало утечку соединений во время шторма повторных попыток
3. Почему произошёл шторм повторных попыток? Отсутствовал circuit breaker на нижестоящем API
4. Почему circuit breaker отсутствовал? Функция не была реализована при редизайне
5. Почему? Пробел в требованиях к надёжности во время миграции

### Элементы действий
- [ ] Реализовать паттерн circuit breaker (Ответственный: Team A, Срок: 2 недели)
- [ ] Добавить алерты мониторинга пула соединений (Ответственный: Team B, Срок: 1 неделя)
- [ ] Обновить чеклист миграции для включения требований к надёжности (Ответственный: Team C, Срок: 1 неделя)

Аудит безопасности

Безопасно

v1 • 2/25/2026

Prompt-only skill containing educational content about SRE incident management practices. Static analysis scanned 0 files (0 lines) and detected 0 security issues. The skill provides guidance on incident response procedures, observability practices, and post-incident analysis. No executable code, no network calls, no file operations, and no prompt injection attempts detected. This is a safe, informational skill for incident response education.

Просканировано файлов

Проанализировано строк

находки

Всего аудитов

Проблем безопасности не найдено

Проверено: claude

Оценка качества

Архитектура

100

Сопровождаемость

Контент

Сообщество

100

Безопасность

Соответствие спецификации

Что вы можете построить

Реагирование на активные производственные инциденты

Используйте во время активных инцидентов для соблюдения структурированных протоколов реагирования, оценки серьёзности, создания управления инцидентами и координации коммуникации с заинтересованными сторонами.

Анализ после инцидента и обучение

Содействуйте проведению беспристрастных анализов постфактум, направляя создание временной шкалы, анализ корневых причин с использованием техники «пять почему» и выявление действенных улучшений.

Практика и обучение SRE

Изучите лучшие практики управления инцидентами, современные методы наблюдаемости и паттерны надёжности для создания более устойчивых систем.

Попробуйте эти промпты

Первоначальная оценка инцидента

У нас производственный инцидент. Сервис [service name] испытывает [symptoms]. Помогите оценить серьёзность, создать управление инцидентами и определить немедленные шаги по стабилизации.

Исследование и триаж

У нас инцидент [P1/P2], влияющий на [service]. Первоначальное исследование показывает [observed symptoms]. Направьте меня через исследование на основе наблюдаемости для выявления корневой причины.

Коммуникация с заинтересованными сторонами

Мы в середине инцидента [P0/P1]. Мне нужно подготовить обновления для [executives/customers/support team]. Что мне сообщить и как часто?

Содействие анализу постфактум

Помогите провести беспристрастный анализ постфактум для инцидента, где [brief description]. Направьте меня через создание временной шкалы, анализ корневых причин и определение элементов действий.

Лучшие практики

Немедленно создавайте структуру управления инцидентами — неясность владения задерживает решение
Коммуницируйте проактивно и часто — заинтересованные стороны предпочитают обновления молчанию
Во время активных инцидентов сначала фокусируйтесь на восстановлении сервиса, затем на анализе корневых причин
Документируйте всё в реальном времени — временные шкалы и решения сложнее восстановить позже

Избегать

Обвинение отдельных лиц в анализах постфактум — вместо этого фокусируйтесь на системах и процессах
Пропуск управления инцидентами в пользу «все реагируют» — вызывает хаос координации
Задержка коммуникации до получения полной информации — заинтересованным сторонам нужны своевременные обновления
Реализация сложных исправлений во время активных инцидентов — предпочитайте минимально жизнеспособные исправления

Часто задаваемые вопросы

Как быстро мне нужно реагировать на инцидент P0?

Инциденты P0 (критические) требуют подтверждения в течение 15 минут и решения в течение 1 часа. Немедленная эскалация и создание управления инцидентами критически важны.

В чём разница между incident commander и technical lead?

Incident Commander принимает решения, координирует реагирование, управляет коммуникацией. Technical Lead исследует техническую корневую причину и реализует исправления. Разделение ролей предотвращает когнитивную перегрузку.

Как часто мне нужно отправлять обновления об инциденте?

Для активных инцидентов: каждые 15 минут для P0/P1, ежечасно для P2. Обновления должны включать текущий статус, предпринятые действия, следующие шаги и ETA, если известно.

Когда мне нужно объявлять инцидент разрешённым?

Объявляйте разрешение, когда все SLI возвращаются к нормальным пороговым значениям, пользовательский опыт проверен и подтверждён запас мощности. Продолжайте усиленный мониторинг в течение 24 часов после разрешения.

Как провести беспристрастный анализ постфактум?

Фокусируйтесь на том, что произошло и почему, а не на том, кто ошибся. Используйте такие техники, как пять почему или диаграммы Исикавы. Выявляйте системные факторы, а не человеческие ошибки. Открыто делитесь полученными знаниями.

Может ли этот навык выполнять фактические команды устранения?

Нет. Этот навык предоставляет только рекомендации и предложения. Он не может получать доступ к вашим системам, выполнять команды или принимать решения. Всегда проверяйте рекомендации применительно к вашей конкретной среде.

Сведения для разработчиков

Автор

sickn33

Лицензия

MIT

Репозиторий

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/incident-responder

Ссылка

main

Структура файлов

📄 SKILL.md