ML Engineer
Создание производственных ML-систем с экспертным руководством
Развертывание моделей машинного обучения в production требует экспертизы в области обслуживания, мониторинга и инфраструктуры, которой не хватает многим командам. Этот скилл предоставляет проверенные на практике паттерны для создания надежных и масштабируемых ML-систем с использованием современных фреймворков, таких как PyTorch 2.x и TensorFlow.
Скачать ZIP навыка
Загрузить в Claude
Перейдите в Settings → Capabilities → Skills → Upload skill
Включите и начните использовать
Протестировать
Использование «ML Engineer». Разработайте архитектуру обслуживания модели для классификации изображений с SLA по задержке 50мс
Ожидаемый результат:
- Рекомендуемая архитектура с использованием TorchServe и GPU инстансов
- Конфигурация батчинга запросов для оптимизации пропускной способности
- Redis слой для кэширования предсказаний при повторных входных данных
- Политика авто-масштабирования на основе глубины очереди и метрик задержки
- Паттерн circuit breaker для graceful degradation при сбоях
Использование «ML Engineer». Как реализовать A/B тестирование для сравнения моделей
Ожидаемый результат:
- Стратегия разделения трафика с sticky sessions для согласованности пользователей
- Расчет статистической мощности для обнаружения 2% улучшения
- Guardrail метрики для мониторинга негативных побочных эффектов
- Последовательный подход к тестированию с критериями ранней остановки
- Оценка размера выборки на основе базового коэффициента конверсии
Аудит безопасности
БезопасноPrompt-only skill with no executable code. Static analysis found 0 files with executable content and computed risk score of 0/100. The SKILL.md file contains only markdown documentation and AI assistant instructions for ML engineering tasks. No security concerns identified.
Оценка качества
Что вы можете построить
Система рекомендаций в реальном времени
Разработайте высокопроизводительный движок рекомендаций, обрабатывающий 100К предсказаний в секунду с кэшированием Redis и обслуживанием модели через TorchServe.
Автоматизация ML конвейеров
Создайте сквозные ML конвейеры с Apache Airflow или Kubeflow для автоматизации обработки данных, обучения, валидации и развертывания.
Мониторинг производительности моделей
Реализуйте комплексный мониторинг с Prometheus и Grafana для отслеживания дрейфа данных, задержки предсказаний и бизнес-метрик в production.
Попробуйте эти промпты
У меня есть обученная модель PyTorch, сохраненная как model.pth. Проведите меня через процесс развертывания ее как REST API с использованием FastAPI и Docker. Включите проверки здоровья, валидацию входных данных и базовое логирование.
Разработайте архитектуру feature store для нашей системы рекомендаций электронной коммерции. Нам нужны как пакетные признаки (история покупок пользователя), так и реальновременные признаки (активность сессии). Сравните Feast и Tecton для нашего случая использования.
Нам нужно обучить модель-трансформер с 2B параметрами на 8xA100 GPU. Рекомендуйте стратегию распределенного обучения с использованием PyTorch FSDP или DeepSpeed. Включите gradient checkpointing, mixed precision и оптимизацию коммуникации.
Разработайте комплексную систему мониторинга для нашей модели обнаружения мошенничества, обслуживающей 10K запросов в секунду. Включите обнаружение дрейфа данных, отслеживание производительности модели, пороги оповещений и триггеры автоматического отката.
Лучшие практики
- Всегда реализуйте комплексную валидацию входных данных и проверки качества данных перед инференсом модели для раннего обнаружения дрейфа
- Используйте инфраструктуру как код (Terraform, CloudFormation) для воспроизводимых развертываний ML инфраструктуры
- Проектируйте с учетом graceful degradation с резервными моделями и circuit breakers для поддержания сервиса во время сбоев
Избегать
- Развертывание моделей без мониторинга дрейфа данных или деградации производительности приводит к незаметным сбоям
- Хардкодинг путей к моделям или гиперпараметров в коде приложения вместо использования model registries
- Запуск обучения и инференса на одной инфраструктуре вызывает конфликт за ресурсы и непредсказуемую задержку