data-engineering-data-pipeline
بناء خطوط بيانات قابلة للتوسع
تصميم خطوط بيانات جاهزة للإنتاج أمر معقد وعرضة للأخطاء. توفر هذه المهارة أنماطًا معمارية مثبتة وإرشادات تنفيذ لأنظمة ETL والبث المباشر وأنظمة Lakehouse.
Télécharger le ZIP du skill
Importer dans Claude
Allez dans Paramètres → Capacités → Skills → Importer un skill
Activez et commencez à utiliser
Tester
Utilisation de "data-engineering-data-pipeline". تصميم خط دفعات لمزامنة بيانات العملاء اليومية من MySQL إلى Snowflake
Résultat attendu:
المعمارية: نمط ELT مع التحميل التزايدي. المكونات: (1) الاستخراج باستخدام عمود العلامة المائية 'updated_at'، (2) تحميل البيانات الخام إلى S3 staging، (3) التحويل في Snowflake باستخدام dbt، (4) التحقق باختبارات dbt، (5) التنبيه عند الفشل عبر Slack. الاعتبارات الرئيسية: التعامل مع البيانات المتأخرة، تنفيذ منطق إعادة المحاولة، مراقبة تباين عدد الصفوف.
Utilisation de "data-engineering-data-pipeline". كيف أتعامل مع تطور المخطط في خط بث مباشر؟
Résultat attendu:
الاستراتيجية: استخدام سجل المخططات مع فحوصات التوافق. للتغييرات الإضافية، استخدم القيم الافتراضية. للتغييرات الجوهرية، نفذ الكتابة المزدوجة أثناء الترحيل. الأدوات: Confluent Schema Registry لـ Kafka، تطور مخطط Delta Lake مع خيار mergeSchema. اختبر دائمًا التوافق مع الإصدارات السابقة قبل النشر.
Audit de sécurité
Risque faibleAll static analyzer findings are false positives. The skill is documentation-only, providing architectural guidance and educational code examples. No executable code, external commands, or security risks detected. Safe for publication.
Problèmes à risque faible (3)
Score de qualité
Ce que vous pouvez construire
معمارية خطوط جديدة
تصميم خط بيانات كامل من الصفر لشركة ناشئة تنتقل من جداول البيانات إلى حزمة بيانات حديثة.
استراتيجية الترحيل بالبث المباشر
تحويل خطوط البيانات الحالية من الدفعات إلى معمارية البث المباشر في الوقت الفعلي باستخدام Kafka وأطر معالجة البث.
تنفيذ إطار جودة البيانات
تنفيذ فحوصات شاملة لجودة البيانات باستخدام Great Expectations واختبارات dbt مع تنبيهات آلية.
Essayez ces prompts
أحتاج إلى بناء خط بيانات يستخرج البيانات من PostgreSQL يوميًا، ويحولها، ويحملها إلى مستودع بيانات. ما المعمارية التي يجب استخدامها وما هي المكونات الرئيسية؟
لدينا بيانات أحداث عالية الحجم من تطبيقنا ونحتاج إلى تحليلات شبه فورية. قارن بين معمارية Lambda و Kappa لحالة الاستخدام لدينا مع مليون حدث في الدقيقة.
أرني كيفية تنفيذ فحوصات جودة البيانات لجدول الطلبات باستخدام Great Expectations. نحتاج إلى التحقق من تفرد معرفات الطلبات، وعدم وجود قيم NULL في معرفات العملاء، وكون مبالغ الطلبات موجبة.
تكاليف خطوط بياناتنا الشهرية تضاعفت. راجع معماريتنا وقدم توصيات محددة لتقليل التكاليف مع الحفاظ على SLA. التقنيات الحالية: Airflow و Spark و S3 و Redshift.
Bonnes pratiques
- قيّم مصادر البيانات والحجم ومتطلبات زمن الوصول والأنظمة المستهدفة قبل اختيار أنماط المعمارية
- نفذ المعالجة التزايدية مع أعمدة العلامات المائية لتجنب إعادة معالجة مجموعات البيانات بالكامل
- أضف بوابات جودة البيانات في كل مرحلة من مراحل الخط مع تنبيهات آلية عند فشل التحقق
Éviter
- نسخ أنماط الإنتاج دون تكييفها مع متطلبات حجم وسرعة البيانات المحددة
- اختيار المعمارية بناءً على الاتجاهات بدلاً من احتياجات الأعمال وقدرات الفريق
- إعطاء الأولوية للميزات على المراقبة وإمكانية الرصد والكتب التشغيلية