airflow-dag-patterns
بناء Apache Airflow DAGs مع أنماط الإنتاج
Également disponible depuis: wshobson
إنشاء Airflow DAGs جاهزة للإنتاج يتطلب فهم المشغلات، وأجهزة الاستشعار، وأنماط معالجة الأخطاء. توفر هذه المهارة قوالب مختبرة وأفضل الممارسات لتنسيق خطوط أنابيب البيانات.
Télécharger le ZIP du skill
Importer dans Claude
Allez dans Paramètres → Capacités → Skills → Importer un skill
Activez et commencez à utiliser
Tester
Utilisation de "airflow-dag-patterns". إنشاء DAG يومي لـ ETL مع مهام extract و transform و load
Résultat attendu:
- تم إنشاء DAG مع الجدول '0 6 * * *' (يوميًا الساعة 6 صباحًا)
- ثلاث مهام PythonOperator: extract_data، transform_data، load_data
- تبعيات المهام: extract >> transform >> load
- تكوين إعادة المحاولة: 3 محاولات مع تراجع أسي لمدة 5 دقائق
- تم تكوين إشعارات البريد الإلكتروني لحالات فشل المهام
Utilisation de "airflow-dag-patterns". إضافة مستشعر للانتظار حتى ملف S3 قبل المعالجة
Résultat attendu:
- تمت إضافة S3KeySensor مع مهلة ساعتين وفاصل poke لمدة 5 دقائق
- تم تكوين المستشعر مع mode='reschedule' لتحرير فتحات العمال
- تم تعيين مهمة المعالجة كتابع downstream للمستشعر
- ينتظر DAG الآن توفر الملف قبل التنفيذ
Audit de sécurité
SûrStatic analysis detected 41 patterns but all are false positives. Backtick characters are markdown formatting for code blocks, not shell execution. globals() usage is standard Airflow pattern for dynamic DAG generation. URLs are documentation references. This is educational documentation with no executable security risks.
Score de qualité
Ce que vous pouvez construire
فرق هندسة البيانات التي تبني خطوط أنابيب ETL
إنشاء خطوط أنابيب بيانات مجدولة تستخرج من المصادر، وتحول البيانات، وتحمّل إلى المستودعات مع معالجة أخطاء ومراقبة مناسبة.
فرق التحليلات التي تنسق إنشاء التقارير
جدولة مهام إنشاء التقارير الآلية مع تبعيات على توفر البيانات واكتمال المعالجة السابقة.
مهندسو ML الذين يدربون النماذج حسب الجدول
تنسيق خطوط أنابيب تدريب التعلم الآلي مع مراحل التحقق من صحة البيانات، وتدريب النماذج، والنشر.
Essayez ces prompts
أنشئ Airflow DAG يعمل يوميًا الساعة 6 صباحًا لاستخراج البيانات من ملف CSV، وتحويلها، وتحميلها إلى قاعدة بيانات. ضمّن معالجة أخطاء أساسية مع إعادة المحاولة.
أنشئ عدة DAGs متشابهة من قائمة تكوين لمعالجة مصادر بيانات مختلفة. يجب أن يكون لكل DAG نفس الهيكل ولكن جداول ومسارات مصادر مختلفة.
أنشئ DAG يتحقق من مقاييس جودة البيانات ويتفرع إلى مسارات معالجة مختلفة بناءً على درجة الجودة. ضمّن منطقJoin مناسب بعد التفرع.
ابنِ DAG ينتظر وصول الملفات إلى S3، يعتمد على اكتمال DAG آخر، ويراقب نقطة نهاية صحة API قبل المعالجة. استخدم وضع reschedule لأجهزة الاستشعار.
Bonnes pratiques
- استخدم TaskFlow API للحصول على كود أنظف وتمرير XCom تلقائي بين المهام
- صمّم جميع المهام لتكون idempotent حتى لا تسبب إعادة المحاولة ازدواجية في البيانات
- اضبط مهلات زمنية مناسبة على المهام واستخدم وضع reschedule لأجهزة الاستشعار لتحرير موارد العمال
Éviter
- استخدام depends_on_past=True الذي يخلق اختناقات غير ضرورية ويمنع التنفيذ المتوازي
- تثبيت التواريخ أو القيم بشكل ثابت بدلاً من استخدام وحدات الماكرو في Airflow مثل {{ ds }} لتواريخ التنفيذ
- وضع منطق الأعمال الثقيل مباشرة في ملفات DAG بدلاً من الاستيراد من وحدات منفصلة