ML Engineer
Créez des systèmes ML de production avec un encadrement d'expert
Le déploiement de modèles d'apprentissage automatique en production nécessite une expertise en mise en service, surveillance et infrastructure que de nombreuses équipes n'ont pas. Cette compétence fournit des patterns éprouvés pour construire des systèmes ML fiables et évolutifs utilisant des frameworks modernes comme PyTorch 2.x et TensorFlow.
تنزيل ZIP المهارة
رفع في Claude
اذهب إلى Settings → Capabilities → Skills → Upload skill
فعّل وابدأ الاستخدام
اختبرها
استخدام "ML Engineer". Concevoir une architecture de service de modèle pour classification d'images avec SLA de latence 50ms
النتيجة المتوقعة:
- Architecture recommandée utilisant TorchServe avec des instances GPU
- Configuration du traitement par lots de requêtes pour l'optimisation du débit
- Couche Redis pour la mise en cache des prédictions sur les entrées répétées
- Stratégie de mise à l'échelle automatique basée sur la profondeur de file et les métriques de latence
- Pattern circuit breaker pour dégradation gracieuse pendant les pannes
استخدام "ML Engineer". Comment implémenter des tests A/B pour comparaison de modèles
النتيجة المتوقعة:
- Stratégie de répartition du trafic avec sessions persistantes pour la cohérence utilisateur
- Calcul de puissance statistique pour détecter une amélioration de 2%
- Métriques de garde-fou pour surveiller les effets secondaires négatifs
- Approche de test séquentiel avec critères d'arrêt anticipé
- Estimation de la taille d'échantillon basée sur le taux de conversion de référence
التدقيق الأمني
آمنPrompt-only skill with no executable code. Static analysis found 0 files with executable content and computed risk score of 0/100. The SKILL.md file contains only markdown documentation and AI assistant instructions for ML engineering tasks. No security concerns identified.
درجة الجودة
ماذا يمكنك بناءه
Système de Recommandation en Temps Réel
Concevoir un moteur de recommandation à haut débit gérant 100K prédictions par seconde avec mise en cache Redis et service de modèle via TorchServe.
Automatisation de Pipeline ML
Construire des pipelines ML de bout en bout avec Apache Airflow ou Kubeflow qui automatisent le traitement des données, l'entraînement, la validation et le déploiement.
Surveillance des Performances de Modèle
Implémenter une surveillance complète avec Prometheus et Grafana pour suivre la dérive de données, la latence de prédiction et les métriques métier en production.
جرّب هذه الموجهات
J'ai un modèle PyTorch entraîné sauvegardé sous model.pth. Guidez-moi pour le déployer en tant qu'API REST en utilisant FastAPI et Docker. Incluez les vérifications de santé, la validation des entrées et la journalisation de base.
Concevez une architecture de feature store pour notre système de recommandation e-commerce. Nous avons besoin à la fois de features en batch (historique d'achat utilisateur) et de features en temps réel (activité de session). Comparez Feast vs Tecton pour notre cas d'usage.
Nous devons entraîner un modèle transformer de 2B paramètres sur 8 GPU A100. Recommandez une stratégie d'entraînement distribué en utilisant PyTorch FSDP ou DeepSpeed. Incluez le checkpointing de gradient, la précision mixte et l'optimisation des communications.
Concevez un système de surveillance complet pour notre modèle de détection de fraude traitant 10K requêtes/seconde. Incluez la détection de dérive de données, le suivi des performances du modèle, les seuils d'alerte et les déclencheurs de rollback automatisé.
أفضل الممارسات
- Implémentez toujours une validation complète des entrées et des vérifications de qualité des données avant l'inférence du modèle pour détecter la dérive tôt
- Utilisez l'infrastructure as code (Terraform, CloudFormation) pour des déploiements d'infrastructure ML reproductibles
- Concevez pour une dégradation gracieuse avec des modèles de secours et des circuit breakers pour maintenir le service pendant les pannes
تجنب
- Déployer des modèles sans surveillance de la dérive de données ou de la dégradation des performances conduit à des pannes silencieuses
- Coder en dur les chemins de modèle ou les hyperparamètres dans le code d'application au lieu d'utiliser des registres de modèles
- Exécuter l'entraînement et l'inférence sur la même infrastructure cause une contention des ressources et une latence imprévisible