Навыки ML Engineer
📦

ML Engineer

Безопасно

Создание производственных ML-систем с экспертным руководством

Развертывание моделей машинного обучения в production требует экспертизы в области обслуживания, мониторинга и инфраструктуры, которой не хватает многим командам. Этот скилл предоставляет проверенные на практике паттерны для создания надежных и масштабируемых ML-систем с использованием современных фреймворков, таких как PyTorch 2.x и TensorFlow.

Поддерживает: Claude Codex Code(CC)
⚠️ 68 Плохо
1

Скачать ZIP навыка

2

Загрузить в Claude

Перейдите в Settings → Capabilities → Skills → Upload skill

3

Включите и начните использовать

Протестировать

Использование «ML Engineer». Разработайте архитектуру обслуживания модели для классификации изображений с SLA по задержке 50мс

Ожидаемый результат:

  • Рекомендуемая архитектура с использованием TorchServe и GPU инстансов
  • Конфигурация батчинга запросов для оптимизации пропускной способности
  • Redis слой для кэширования предсказаний при повторных входных данных
  • Политика авто-масштабирования на основе глубины очереди и метрик задержки
  • Паттерн circuit breaker для graceful degradation при сбоях

Использование «ML Engineer». Как реализовать A/B тестирование для сравнения моделей

Ожидаемый результат:

  • Стратегия разделения трафика с sticky sessions для согласованности пользователей
  • Расчет статистической мощности для обнаружения 2% улучшения
  • Guardrail метрики для мониторинга негативных побочных эффектов
  • Последовательный подход к тестированию с критериями ранней остановки
  • Оценка размера выборки на основе базового коэффициента конверсии

Аудит безопасности

Безопасно
v1 • 2/25/2026

Prompt-only skill with no executable code. Static analysis found 0 files with executable content and computed risk score of 0/100. The SKILL.md file contains only markdown documentation and AI assistant instructions for ML engineering tasks. No security concerns identified.

0
Просканировано файлов
0
Проанализировано строк
0
находки
1
Всего аудитов
Проблем безопасности не найдено
Проверено: claude

Оценка качества

38
Архитектура
100
Сопровождаемость
87
Контент
24
Сообщество
100
Безопасность
74
Соответствие спецификации

Что вы можете построить

Система рекомендаций в реальном времени

Разработайте высокопроизводительный движок рекомендаций, обрабатывающий 100К предсказаний в секунду с кэшированием Redis и обслуживанием модели через TorchServe.

Автоматизация ML конвейеров

Создайте сквозные ML конвейеры с Apache Airflow или Kubeflow для автоматизации обработки данных, обучения, валидации и развертывания.

Мониторинг производительности моделей

Реализуйте комплексный мониторинг с Prometheus и Grafana для отслеживания дрейфа данных, задержки предсказаний и бизнес-метрик в production.

Попробуйте эти промпты

Начинающий: Основы развертывания ML моделей
У меня есть обученная модель PyTorch, сохраненная как model.pth. Проведите меня через процесс развертывания ее как REST API с использованием FastAPI и Docker. Включите проверки здоровья, валидацию входных данных и базовое логирование.
Средний уровень: Проектирование Feature Store
Разработайте архитектуру feature store для нашей системы рекомендаций электронной коммерции. Нам нужны как пакетные признаки (история покупок пользователя), так и реальновременные признаки (активность сессии). Сравните Feast и Tecton для нашего случая использования.
Продвинутый: Стратегия распределенного обучения
Нам нужно обучить модель-трансформер с 2B параметрами на 8xA100 GPU. Рекомендуйте стратегию распределенного обучения с использованием PyTorch FSDP или DeepSpeed. Включите gradient checkpointing, mixed precision и оптимизацию коммуникации.
Эксперт: Мониторинг ML в production
Разработайте комплексную систему мониторинга для нашей модели обнаружения мошенничества, обслуживающей 10K запросов в секунду. Включите обнаружение дрейфа данных, отслеживание производительности модели, пороги оповещений и триггеры автоматического отката.

Лучшие практики

  • Всегда реализуйте комплексную валидацию входных данных и проверки качества данных перед инференсом модели для раннего обнаружения дрейфа
  • Используйте инфраструктуру как код (Terraform, CloudFormation) для воспроизводимых развертываний ML инфраструктуры
  • Проектируйте с учетом graceful degradation с резервными моделями и circuit breakers для поддержания сервиса во время сбоев

Избегать

  • Развертывание моделей без мониторинга дрейфа данных или деградации производительности приводит к незаметным сбоям
  • Хардкодинг путей к моделям или гиперпараметров в коде приложения вместо использования model registries
  • Запуск обучения и инференса на одной инфраструктуре вызывает конфликт за ресурсы и непредсказуемую задержку

Часто задаваемые вопросы

Какие ML фреймворки поддерживает этот скилл?
Основная поддержка PyTorch 2.x и TensorFlow 2.x. Также охватывает JAX/Flax для исследовательских рабочих нагрузок, scikit-learn и библиотеки градиентного бустинга для классического ML, и Hugging Face Transformers для приложений LLM.
Может ли этот скилл помочь с облачными сервисами ML?
Да. Предоставляет рекомендации для AWS SageMaker, Azure ML, GCP Vertex AI и Databricks ML. Включает шаблоны инфраструктуры как кода и лучшие практики для каждой платформы.
Помогает ли этот скилл с оптимизацией моделей для edge развертывания?
Да. Охватывает TensorFlow Lite, PyTorch Mobile и ONNX Runtime для edge устройств. Включает техники квантизации, pruning и distillation для окружений с ограниченными ресурсами.
Какие инструменты мониторинга рекомендуются для ML в production?
Рекомендует Prometheus и Grafana для инфраструктурных метрик, Evidently AI или WhyLabs для ML-специфичного мониторинга, и пользовательские дашборды бизнес-метрик. Включает рекомендации по настройке оповещений.
Как этот скилл обрабатывает версионирование моделей и откат?
Охватывает MLflow Model Registry, DVC и Git LFS для версионирования. Предоставляет стратегии для blue-green развертываний, canary релизов и автоматического отката на основе порогов производительности.
Может ли этот скилл помочь с настройкой распределенного обучения?
Да. Предоставляет конфигурации для PyTorch DDP, FSDP, Horovod и DeepSpeed. Охватывает настройку мульти-узлов, gradient accumulation, mixed precision обучение и оптимизацию коммуникации.

Сведения для разработчиков

Автор

sickn33

Лицензия

MIT

Ссылка

main

Структура файлов

📄 SKILL.md