المهارات ml-pipeline-workflow
🔄

ml-pipeline-workflow

آمن

Construire des Pipelines ML de Production

متاح أيضًا من: wshobson

La construction de pipelines ML fiables nécessite l'orchestration des étapes de préparation des données, d'entraînement, de validation et de déploiement tout en maintenant la reproductibilité et la surveillance. Cette compétence fournit des modèles éprouvés et des meilleures pratiques pour créer des flux de travail MLOps de bout en bout qui évoluent du prototype à la production.

يدعم: Claude Codex Code(CC)
🥉 75 برونزي
1

تنزيل ZIP المهارة

2

رفع في Claude

اذهب إلى Settings → Capabilities → Skills → Upload skill

3

فعّل وابدأ الاستخدام

اختبرها

استخدام "ml-pipeline-workflow". Concevoir un pipeline ML de base pour la classification d'images

النتيجة المتوقعة:

Voici une architecture de pipeline à 4 étapes : Étape 1 - Ingestion des données (charger les images, diviser train/val/test), Étape 2 - Ingénierie des features (augmentation, normalisation), Étape 3 - Entraînement du modèle (entraîner CNN avec journalisation des hyperparamètres), Étape 4 - Déploiement (emballer le modèle, déployer vers le endpoint de service). Chaque étape a une logique de retry indépendante et produit des artifacts versionnés.

استخدام "ml-pipeline-workflow". Comment implémenter un déploiement canary pour mon modèle ?

النتيجة المتوقعة:

Stratégie de déploiement canary : 1) Déployer le nouveau modèle sur 10% du traffic en utilisant le routage pondéré, 2) Surveiller les métriques clés (latence, taux d'erreur, qualité des prédictions) pendant 1-2 heures, 3) Si les métriques restent dans les seuils, augmenter progressivement à 50%, puis 100%, 4) Si des anomalies sont détectées, revenir automatiquement au modèle précédent. Utiliser MLflow ou similaire pour tracker les versions de modèles et la performance.

التدقيق الأمني

آمن
v1 • 2/25/2026

Static analysis detected 17 potential issues (external_commands and weak cryptographic patterns), all of which are false positives. The flagged backtick patterns are markdown code formatting for file path references (e.g., `resources/implementation-playbook.md`), not shell execution. The cryptographic algorithm flags do not correspond to actual cryptographic code in the skill file. This is a documentation-only skill with no executable code, no network access, no file system operations, and no security risks.

1
الملفات التي تم فحصها
260
الأسطر التي تم تحليلها
1
النتائج
1
إجمالي عمليات التدقيق
مشكلات منخفضة المخاطر (1)
False Positive: Markdown Code Formatting
Static analyzer flagged 10 instances of 'Ruby/shell backtick execution' at lines 22, 73, 81, 90, 103, 200, 211, 215, 219, 223. These are markdown code spans using backticks to format file paths like `resources/implementation-playbook.md` and `assets/`, not actual shell execution commands. This is standard markdown syntax with no security implications.
تم تدقيقه بواسطة: claude

درجة الجودة

38
الهندسة المعمارية
100
قابلية الصيانة
87
المحتوى
50
المجتمع
100
الأمان
100
الامتثال للمواصفات

ماذا يمكنك بناءه

Construire un Nouveau Pipeline ML

Créer un pipeline ML complet à partir de zéro avec une orchestration appropriée, une validation et des étapes de déploiement pour un système de machine learning de production.

Orchestrer les Workflows ML

Concevoir et implémenter l'automatisation de workflow basée sur des DAG pour des composants ML existants en utilisant des outils comme Airflow, Dagster ou Kubeflow Pipelines.

Déployer des Modèles en Production

Implémenter des stratégies de déploiement sûres incluant des déploiements canary, blue-green et des mécanismes de rollback automatique pour les modèles ML.

جرّب هذه الموجهات

Créer un Pipeline de Base
Concevoir un pipeline ML simple qui traite les données, entraîne un modèle et le déploie. Inclure les étapes clés et les dépendances.
Configurer l'Orchestration DAG
Aidez-moi à mettre en place un workflow ML basé sur DAG en utilisant [Airflow/Dagster/Kubeflow]. J'ai des étapes [traitement des données/entraînement/validation] qui doivent s'exécuter en séquence.
Implémenter une Stratégie de Déploiement
Concevoir une stratégie de déploiement pour mon modèle ML qui inclut le testing canary et le rollback automatique. Le modèle sert des prédictions [description].
Mettre en Place l'Entraînement Continu
Créer un pipeline d'entraînement continu qui réentraîne mon modèle quand une dérive des données est détectée. Inclure les déclencheurs de surveillance et les portes de validation.

أفضل الممارسات

  • Concevoir chaque étape du pipeline pour être modulaire et testable indépendamment pour un débogage et une maintenance plus faciles
  • Implémenter des étapes idempotentes pour que réexécuter n'importe quelle partie du pipeline soit sûr et produise des résultats cohérents
  • Versionner tous les artifacts incluant les datasets, modèles et configurations pour une reproductibilité complète et des capacités de rollback

تجنب

  • Éviter les étapes de pipeline monolithiques qui combinent de multiples responsabilités, car cela rend le débogage difficile et réduit la réutilisabilité
  • Ne pas sauter la validation des données entre les étapes, car des données invalides peuvent causer des échecs silencieux en aval difficiles à diagnostiquer
  • Ne jamais déployer des modèles directement à 100% du traffic de production sans testing de validation ou mécanismes de déploiement progressif

الأسئلة المتكررة

Quel outil d'orchestration devrais-je utiliser pour mon pipeline ML ?
Choisissez selon vos besoins : Airflow pour les workflows DAG matures avec un large support communautaire, Dagster pour les pipelines basés sur les assets avec une forte lignée de données, Kubeflow pour les workflows ML natifs Kubernetes, ou Prefect pour l'automatisation de workflow Pythonique moderne. Cette compétence prend en charge les quatre options.
Comment gérer le versioning des données dans mon pipeline ?
Utilisez DVC (Data Version Control) ou des outils similaires pour tracker les versions de datasets alongside le code. Créez des identifiants de version uniques pour chaque dataset traité, et loggez ces versions avec vos modèles entraînés pour un tracking de lignée complet.
Quelle est la différence entre les pipelines de features batch et real-time ?
Les pipelines batch traitent les données selon un planning (ex: quotidiennement) et sont plus simples à implémenter et déboguer. Les pipelines real-time utilisent le traitement de stream pour calculer les features on-demand pour des prédictions à faible latence. Commencez avec batch, puis ajoutez des features real-time seulement si votre cas d'usage nécessite une latence de prédiction sub-seconde.
Comment surveiller la performance du modèle après déploiement ?
Trackez la latence de prédiction, les taux d'erreur et les métriques business. Pour la qualité de prédiction, utilisez les labels ground truth quand disponibles pour calculer accuracy/F1/MAE. Configurez des alertes pour la détection de dérive des données et la régression de performance. La plupart des équipes utilisent MLflow, Weights & Biases, ou des outils d'observabilité custom.
Quand utiliser canary vs blue-green deployment ?
Utilisez le déploiement canary pour tester de nouveaux modèles sur un petit pourcentage de traffic tout en gardant l'ancien modèle en cours d'exécution. Utilisez le déploiement blue-green quand vous devez basculer complètement le traffic entre les versions. Canary est plus sûr pour les changements de modèle avec un impact de performance incertain ; blue-green fonctionne bien pour les mises à jour d'infrastructure.
Comment implémenter des déclencheurs de rollback automatique ?
Définissez des seuils pour les métriques clés (latence p95 < 100ms, taux d'erreur < 1%, précision de prédiction dans les 5% de la baseline). Configurez la surveillance pour vérifier ces métriques toutes les 5-10 minutes après le déploiement. Si n'importe quelle métrique dépasse le seuil pendant 2 vérifications consécutives, revenez automatiquement à la version précédente du modèle en utilisant le mécanisme de rollback de votre outil d'orchestration.

تفاصيل المطور

بنية الملفات

📄 SKILL.md