📦

ML Engineer

Name: ML Engineer
Author: sickn33

Sûr

Créez des systèmes ML de production avec un encadrement d'expert

Le déploiement de modèles d'apprentissage automatique en production nécessite une expertise en mise en service, surveillance et infrastructure que de nombreuses équipes n'ont pas. Cette compétence fournit des patterns éprouvés pour construire des systèmes ML fiables et évolutifs utilisant des frameworks modernes comme PyTorch 2.x et TensorFlow.

Prend en charge: Claude Codex Code(CC)

⚠️ 68 Médiocre

Télécharger le ZIP du skill

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

Activez et commencez à utiliser

Tester

Utilisation de "ML Engineer". Concevoir une architecture de service de modèle pour classification d'images avec SLA de latence 50ms

Résultat attendu:

Architecture recommandée utilisant TorchServe avec des instances GPU
Configuration du traitement par lots de requêtes pour l'optimisation du débit
Couche Redis pour la mise en cache des prédictions sur les entrées répétées
Stratégie de mise à l'échelle automatique basée sur la profondeur de file et les métriques de latence
Pattern circuit breaker pour dégradation gracieuse pendant les pannes

Utilisation de "ML Engineer". Comment implémenter des tests A/B pour comparaison de modèles

Résultat attendu:

Stratégie de répartition du trafic avec sessions persistantes pour la cohérence utilisateur
Calcul de puissance statistique pour détecter une amélioration de 2%
Métriques de garde-fou pour surveiller les effets secondaires négatifs
Approche de test séquentiel avec critères d'arrêt anticipé
Estimation de la taille d'échantillon basée sur le taux de conversion de référence

Audit de sécurité

Sûr

v1 • 2/25/2026

Prompt-only skill with no executable code. Static analysis found 0 files with executable content and computed risk score of 0/100. The SKILL.md file contains only markdown documentation and AI assistant instructions for ML engineering tasks. No security concerns identified.

Fichiers analysés

Lignes analysées

résultats

Total des audits

Aucun problème de sécurité trouvé

Audité par: claude

Score de qualité

Architecture

100

Maintenabilité

Contenu

Communauté

100

Sécurité

Conformité aux spécifications

Ce que vous pouvez construire

Système de Recommandation en Temps Réel

Concevoir un moteur de recommandation à haut débit gérant 100K prédictions par seconde avec mise en cache Redis et service de modèle via TorchServe.

Automatisation de Pipeline ML

Construire des pipelines ML de bout en bout avec Apache Airflow ou Kubeflow qui automatisent le traitement des données, l'entraînement, la validation et le déploiement.

Surveillance des Performances de Modèle

Implémenter une surveillance complète avec Prometheus et Grafana pour suivre la dérive de données, la latence de prédiction et les métriques métier en production.

Essayez ces prompts

Débutant : Bases du Déploiement de Modèle ML

J'ai un modèle PyTorch entraîné sauvegardé sous model.pth. Guidez-moi pour le déployer en tant qu'API REST en utilisant FastAPI et Docker. Incluez les vérifications de santé, la validation des entrées et la journalisation de base.

Intermédiaire : Conception de Feature Store

Concevez une architecture de feature store pour notre système de recommandation e-commerce. Nous avons besoin à la fois de features en batch (historique d'achat utilisateur) et de features en temps réel (activité de session). Comparez Feast vs Tecton pour notre cas d'usage.

Avancé : Stratégie d'Entraînement Distribué

Nous devons entraîner un modèle transformer de 2B paramètres sur 8 GPU A100. Recommandez une stratégie d'entraînement distribué en utilisant PyTorch FSDP ou DeepSpeed. Incluez le checkpointing de gradient, la précision mixte et l'optimisation des communications.

Expert : Surveillance ML en Production

Concevez un système de surveillance complet pour notre modèle de détection de fraude traitant 10K requêtes/seconde. Incluez la détection de dérive de données, le suivi des performances du modèle, les seuils d'alerte et les déclencheurs de rollback automatisé.

Bonnes pratiques

Implémentez toujours une validation complète des entrées et des vérifications de qualité des données avant l'inférence du modèle pour détecter la dérive tôt
Utilisez l'infrastructure as code (Terraform, CloudFormation) pour des déploiements d'infrastructure ML reproductibles
Concevez pour une dégradation gracieuse avec des modèles de secours et des circuit breakers pour maintenir le service pendant les pannes

Éviter

Déployer des modèles sans surveillance de la dérive de données ou de la dégradation des performances conduit à des pannes silencieuses
Coder en dur les chemins de modèle ou les hyperparamètres dans le code d'application au lieu d'utiliser des registres de modèles
Exécuter l'entraînement et l'inférence sur la même infrastructure cause une contention des ressources et une latence imprévisible

Foire aux questions

Quels frameworks ML cette compétence prend-elle en charge ?

Support principal pour PyTorch 2.x et TensorFlow 2.x. Couvre également JAX/Flax pour les charges de travail de recherche, scikit-learn et les bibliothèques de gradient boosting pour le ML classique, et Hugging Face Transformers pour les applications LLM.

Cette compétence peut-elle aider avec les services ML spécifiques au cloud ?

Oui. Fournit des conseils pour AWS SageMaker, Azure ML, GCP Vertex AI et Databricks ML. Inclut des templates d'infrastructure as code et meilleures pratiques pour chaque plateforme.

Cette compétence aide-t-elle à l'optimisation de modèle pour le déploiement edge ?

Oui. Couvre TensorFlow Lite, PyTorch Mobile et ONNX Runtime pour les appareils edge. Inclut les techniques de quantification, élagage et distillation pour les environnements à ressources contraintes.

Quels outils de surveillance sont recommandés pour le ML en production ?

Recommande Prometheus et Grafana pour les métriques d'infrastructure, Evidently AI ou WhyLabs pour la surveillance ML spécifique, et des tableaux de bord personnalisés pour les métriques métier. Inclut des conseils de configuration d'alertes.

Comment cette compétence gère-t-elle le versionnement et le rollback de modèles ?

Couvre MLflow Model Registry, DVC et Git LFS pour le versionnement. Fournit des stratégies pour les déploiements blue-green, les versions canary et le rollback automatisé basé sur des seuils de performance.

Cette compétence peut-elle aider avec la configuration de l'entraînement distribué ?

Oui. Fournit des configurations pour PyTorch DDP, FSDP, Horovod et DeepSpeed. Couvre la configuration multi-nœuds, l'accumulation de gradients, l'entraînement en précision mixte et l'optimisation des communications.

Détails du développeur

Auteur

sickn33

Licence

MIT

Dépôt

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/ml-engineer

Réf

main

Structure de fichiers

📄 SKILL.md