📦

ML Engineer

Name: ML Engineer
Author: sickn33

Безопасно

Создание производственных ML-систем с экспертным руководством

Развертывание моделей машинного обучения в production требует экспертизы в области обслуживания, мониторинга и инфраструктуры, которой не хватает многим командам. Этот скилл предоставляет проверенные на практике паттерны для создания надежных и масштабируемых ML-систем с использованием современных фреймворков, таких как PyTorch 2.x и TensorFlow.

Поддерживает: Claude Codex Code(CC)

⚠️ 68 Плохо

Скачать ZIP навыка

Загрузить в Claude

Перейдите в Settings → Capabilities → Skills → Upload skill

Включите и начните использовать

Протестировать

Использование «ML Engineer». Разработайте архитектуру обслуживания модели для классификации изображений с SLA по задержке 50мс

Ожидаемый результат:

Рекомендуемая архитектура с использованием TorchServe и GPU инстансов
Конфигурация батчинга запросов для оптимизации пропускной способности
Redis слой для кэширования предсказаний при повторных входных данных
Политика авто-масштабирования на основе глубины очереди и метрик задержки
Паттерн circuit breaker для graceful degradation при сбоях

Использование «ML Engineer». Как реализовать A/B тестирование для сравнения моделей

Ожидаемый результат:

Стратегия разделения трафика с sticky sessions для согласованности пользователей
Расчет статистической мощности для обнаружения 2% улучшения
Guardrail метрики для мониторинга негативных побочных эффектов
Последовательный подход к тестированию с критериями ранней остановки
Оценка размера выборки на основе базового коэффициента конверсии

Аудит безопасности

Безопасно

v1 • 2/25/2026

Prompt-only skill with no executable code. Static analysis found 0 files with executable content and computed risk score of 0/100. The SKILL.md file contains only markdown documentation and AI assistant instructions for ML engineering tasks. No security concerns identified.

Просканировано файлов

Проанализировано строк

находки

Всего аудитов

Проблем безопасности не найдено

Проверено: claude

Оценка качества

Архитектура

100

Сопровождаемость

Контент

Сообщество

100

Безопасность

Соответствие спецификации

Что вы можете построить

Система рекомендаций в реальном времени

Разработайте высокопроизводительный движок рекомендаций, обрабатывающий 100К предсказаний в секунду с кэшированием Redis и обслуживанием модели через TorchServe.

Автоматизация ML конвейеров

Создайте сквозные ML конвейеры с Apache Airflow или Kubeflow для автоматизации обработки данных, обучения, валидации и развертывания.

Мониторинг производительности моделей

Реализуйте комплексный мониторинг с Prometheus и Grafana для отслеживания дрейфа данных, задержки предсказаний и бизнес-метрик в production.

Попробуйте эти промпты

Начинающий: Основы развертывания ML моделей

У меня есть обученная модель PyTorch, сохраненная как model.pth. Проведите меня через процесс развертывания ее как REST API с использованием FastAPI и Docker. Включите проверки здоровья, валидацию входных данных и базовое логирование.

Средний уровень: Проектирование Feature Store

Разработайте архитектуру feature store для нашей системы рекомендаций электронной коммерции. Нам нужны как пакетные признаки (история покупок пользователя), так и реальновременные признаки (активность сессии). Сравните Feast и Tecton для нашего случая использования.

Продвинутый: Стратегия распределенного обучения

Нам нужно обучить модель-трансформер с 2B параметрами на 8xA100 GPU. Рекомендуйте стратегию распределенного обучения с использованием PyTorch FSDP или DeepSpeed. Включите gradient checkpointing, mixed precision и оптимизацию коммуникации.

Эксперт: Мониторинг ML в production

Разработайте комплексную систему мониторинга для нашей модели обнаружения мошенничества, обслуживающей 10K запросов в секунду. Включите обнаружение дрейфа данных, отслеживание производительности модели, пороги оповещений и триггеры автоматического отката.

Лучшие практики

Всегда реализуйте комплексную валидацию входных данных и проверки качества данных перед инференсом модели для раннего обнаружения дрейфа
Используйте инфраструктуру как код (Terraform, CloudFormation) для воспроизводимых развертываний ML инфраструктуры
Проектируйте с учетом graceful degradation с резервными моделями и circuit breakers для поддержания сервиса во время сбоев

Избегать

Развертывание моделей без мониторинга дрейфа данных или деградации производительности приводит к незаметным сбоям
Хардкодинг путей к моделям или гиперпараметров в коде приложения вместо использования model registries
Запуск обучения и инференса на одной инфраструктуре вызывает конфликт за ресурсы и непредсказуемую задержку

Часто задаваемые вопросы

Какие ML фреймворки поддерживает этот скилл?

Основная поддержка PyTorch 2.x и TensorFlow 2.x. Также охватывает JAX/Flax для исследовательских рабочих нагрузок, scikit-learn и библиотеки градиентного бустинга для классического ML, и Hugging Face Transformers для приложений LLM.

Может ли этот скилл помочь с облачными сервисами ML?

Да. Предоставляет рекомендации для AWS SageMaker, Azure ML, GCP Vertex AI и Databricks ML. Включает шаблоны инфраструктуры как кода и лучшие практики для каждой платформы.

Помогает ли этот скилл с оптимизацией моделей для edge развертывания?

Да. Охватывает TensorFlow Lite, PyTorch Mobile и ONNX Runtime для edge устройств. Включает техники квантизации, pruning и distillation для окружений с ограниченными ресурсами.

Какие инструменты мониторинга рекомендуются для ML в production?

Рекомендует Prometheus и Grafana для инфраструктурных метрик, Evidently AI или WhyLabs для ML-специфичного мониторинга, и пользовательские дашборды бизнес-метрик. Включает рекомендации по настройке оповещений.

Как этот скилл обрабатывает версионирование моделей и откат?

Охватывает MLflow Model Registry, DVC и Git LFS для версионирования. Предоставляет стратегии для blue-green развертываний, canary релизов и автоматического отката на основе порогов производительности.

Может ли этот скилл помочь с настройкой распределенного обучения?

Да. Предоставляет конфигурации для PyTorch DDP, FSDP, Horovod и DeepSpeed. Охватывает настройку мульти-узлов, gradient accumulation, mixed precision обучение и оптимизацию коммуникации.

Сведения для разработчиков

Автор

sickn33

Лицензия

MIT

Репозиторий

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/ml-engineer

Ссылка

main

Структура файлов

📄 SKILL.md