المهارات ML Engineer
📦

ML Engineer

آمن

Créez des systèmes ML de production avec un encadrement d'expert

Le déploiement de modèles d'apprentissage automatique en production nécessite une expertise en mise en service, surveillance et infrastructure que de nombreuses équipes n'ont pas. Cette compétence fournit des patterns éprouvés pour construire des systèmes ML fiables et évolutifs utilisant des frameworks modernes comme PyTorch 2.x et TensorFlow.

يدعم: Claude Codex Code(CC)
🥉 72 برونزي
1

تنزيل ZIP المهارة

2

رفع في Claude

اذهب إلى Settings → Capabilities → Skills → Upload skill

3

فعّل وابدأ الاستخدام

اختبرها

استخدام "ML Engineer". Concevoir une architecture de service de modèle pour classification d'images avec SLA de latence 50ms

النتيجة المتوقعة:

  • Architecture recommandée utilisant TorchServe avec des instances GPU
  • Configuration du traitement par lots de requêtes pour l'optimisation du débit
  • Couche Redis pour la mise en cache des prédictions sur les entrées répétées
  • Stratégie de mise à l'échelle automatique basée sur la profondeur de file et les métriques de latence
  • Pattern circuit breaker pour dégradation gracieuse pendant les pannes

استخدام "ML Engineer". Comment implémenter des tests A/B pour comparaison de modèles

النتيجة المتوقعة:

  • Stratégie de répartition du trafic avec sessions persistantes pour la cohérence utilisateur
  • Calcul de puissance statistique pour détecter une amélioration de 2%
  • Métriques de garde-fou pour surveiller les effets secondaires négatifs
  • Approche de test séquentiel avec critères d'arrêt anticipé
  • Estimation de la taille d'échantillon basée sur le taux de conversion de référence

التدقيق الأمني

آمن
v1 • 2/25/2026

Prompt-only skill with no executable code. Static analysis found 0 files with executable content and computed risk score of 0/100. The SKILL.md file contains only markdown documentation and AI assistant instructions for ML engineering tasks. No security concerns identified.

0
الملفات التي تم فحصها
0
الأسطر التي تم تحليلها
0
النتائج
1
إجمالي عمليات التدقيق
لا توجد مشكلات أمنية
تم تدقيقه بواسطة: claude

درجة الجودة

38
الهندسة المعمارية
100
قابلية الصيانة
87
المحتوى
50
المجتمع
100
الأمان
74
الامتثال للمواصفات

ماذا يمكنك بناءه

Système de Recommandation en Temps Réel

Concevoir un moteur de recommandation à haut débit gérant 100K prédictions par seconde avec mise en cache Redis et service de modèle via TorchServe.

Automatisation de Pipeline ML

Construire des pipelines ML de bout en bout avec Apache Airflow ou Kubeflow qui automatisent le traitement des données, l'entraînement, la validation et le déploiement.

Surveillance des Performances de Modèle

Implémenter une surveillance complète avec Prometheus et Grafana pour suivre la dérive de données, la latence de prédiction et les métriques métier en production.

جرّب هذه الموجهات

Débutant : Bases du Déploiement de Modèle ML
J'ai un modèle PyTorch entraîné sauvegardé sous model.pth. Guidez-moi pour le déployer en tant qu'API REST en utilisant FastAPI et Docker. Incluez les vérifications de santé, la validation des entrées et la journalisation de base.
Intermédiaire : Conception de Feature Store
Concevez une architecture de feature store pour notre système de recommandation e-commerce. Nous avons besoin à la fois de features en batch (historique d'achat utilisateur) et de features en temps réel (activité de session). Comparez Feast vs Tecton pour notre cas d'usage.
Avancé : Stratégie d'Entraînement Distribué
Nous devons entraîner un modèle transformer de 2B paramètres sur 8 GPU A100. Recommandez une stratégie d'entraînement distribué en utilisant PyTorch FSDP ou DeepSpeed. Incluez le checkpointing de gradient, la précision mixte et l'optimisation des communications.
Expert : Surveillance ML en Production
Concevez un système de surveillance complet pour notre modèle de détection de fraude traitant 10K requêtes/seconde. Incluez la détection de dérive de données, le suivi des performances du modèle, les seuils d'alerte et les déclencheurs de rollback automatisé.

أفضل الممارسات

  • Implémentez toujours une validation complète des entrées et des vérifications de qualité des données avant l'inférence du modèle pour détecter la dérive tôt
  • Utilisez l'infrastructure as code (Terraform, CloudFormation) pour des déploiements d'infrastructure ML reproductibles
  • Concevez pour une dégradation gracieuse avec des modèles de secours et des circuit breakers pour maintenir le service pendant les pannes

تجنب

  • Déployer des modèles sans surveillance de la dérive de données ou de la dégradation des performances conduit à des pannes silencieuses
  • Coder en dur les chemins de modèle ou les hyperparamètres dans le code d'application au lieu d'utiliser des registres de modèles
  • Exécuter l'entraînement et l'inférence sur la même infrastructure cause une contention des ressources et une latence imprévisible

الأسئلة المتكررة

Quels frameworks ML cette compétence prend-elle en charge ?
Support principal pour PyTorch 2.x et TensorFlow 2.x. Couvre également JAX/Flax pour les charges de travail de recherche, scikit-learn et les bibliothèques de gradient boosting pour le ML classique, et Hugging Face Transformers pour les applications LLM.
Cette compétence peut-elle aider avec les services ML spécifiques au cloud ?
Oui. Fournit des conseils pour AWS SageMaker, Azure ML, GCP Vertex AI et Databricks ML. Inclut des templates d'infrastructure as code et meilleures pratiques pour chaque plateforme.
Cette compétence aide-t-elle à l'optimisation de modèle pour le déploiement edge ?
Oui. Couvre TensorFlow Lite, PyTorch Mobile et ONNX Runtime pour les appareils edge. Inclut les techniques de quantification, élagage et distillation pour les environnements à ressources contraintes.
Quels outils de surveillance sont recommandés pour le ML en production ?
Recommande Prometheus et Grafana pour les métriques d'infrastructure, Evidently AI ou WhyLabs pour la surveillance ML spécifique, et des tableaux de bord personnalisés pour les métriques métier. Inclut des conseils de configuration d'alertes.
Comment cette compétence gère-t-elle le versionnement et le rollback de modèles ?
Couvre MLflow Model Registry, DVC et Git LFS pour le versionnement. Fournit des stratégies pour les déploiements blue-green, les versions canary et le rollback automatisé basé sur des seuils de performance.
Cette compétence peut-elle aider avec la configuration de l'entraînement distribué ?
Oui. Fournit des configurations pour PyTorch DDP, FSDP, Horovod et DeepSpeed. Couvre la configuration multi-nœuds, l'accumulation de gradients, l'entraînement en précision mixte et l'optimisation des communications.

تفاصيل المطور

المؤلف

sickn33

الترخيص

MIT

مرجع

main

بنية الملفات

📄 SKILL.md