Question 1

هل يجب استخدام معمارية Lambda أم Kappa للتحليلات في الوقت الفعلي؟

Accepted Answer

اختر Lambda عندما تحتاج إلى كل من دقة الدفعات وعروض منخفضة الكمون مع تجميعات معقدة. اختر Kappa للمعالجة المبسطة بالبث المباشر فقط حيث تكون إمكانية إعادة التشغيل كافية. يقلل Kappa التعقيد التشغيلي لكنه يتطلب بنية تحتية قوية لمعالجة البث المباشر.

Question 2

كيف أتعامل مع البيانات المتأخرة في خطوط البث المباشر؟

Accepted Answer

استخدم معالجة وقت الحدث مع العلامات المائية لتحديد عتبات التأخير. نفذ مخرجات جانبية للبيانات المتأخرة التي يمكن إعادة معالجتها. للبيانات الحرجة، احتفظ بمهمة تصحيح دفعات تعمل دوريًا لإصلاح أي سجلات مفقودة.

Question 3

ما تنسيق الملف الذي يجب استخدامه لتخزين بحيرة البيانات؟

Accepted Answer

استخدم Parquet لأحمال التحليلات العمودية مع الضغط ودفع المسندات. تضيف Delta Lake أو Iceberg معاملات ACID وتطور المخططات والسفر عبر الزمن فوق Parquet. اختر بناءً على حاجتك للمعاملات وإدارة البيانات الوصفية.

Question 4

متى يجب استخدام dbt مقابل Spark للتحويلات؟

Accepted Answer

استخدم dbt للتحويلات القائمة على SQL في مستودع البيانات الخاص بك مع اختبار وتوثيق مدمجين. استخدم Spark لمعالجة البيانات واسعة النطاق والتحويلات المعقدة التي تتطلب Python/Scala، أو عند العمل مع بحيرات البيانات قبل التحميل إلى المستودع.

Question 5

كيف أحقق معالجة مرة واحدة بالضبط في البث المباشر؟

Accepted Answer

اجمع بين الأحواض المتطابقة مع المعالجة التبادلية. استخدم معاملات Kafka للكتابات الذرية، ونقطة التحقق للحالة للاسترداد، وصمم عمليات متطابقة. لقواعد البيانات، استخدم عمليات upsert مع قيود فريدة لمنع التكرارات.

Question 6

ما مقاييس المراقبة الأساسية لخطوط البيانات؟

Accepted Answer

تتبع: السجلات المعالجة والفاشلة في كل مرحلة، وزمن الوصول من البداية للنهاية، وحداثة البيانات، ومعدل نجاح الخط، واستخدام الموارد. اضبط التنبيهات على انتهاكات SLA، وارتفاع معدلات الأخطاء، وفشل جودة البيانات. راقب الاتجاهات لتحديد مشكلات السعة قبل أن تسبب توقفات.

data-engineering-data-pipeline

اختبرها

التدقيق الأمني

درجة الجودة

ماذا يمكنك بناءه

معمارية خطوط جديدة

استراتيجية الترحيل بالبث المباشر

تنفيذ إطار جودة البيانات

جرّب هذه الموجهات

أفضل الممارسات

تجنب

الأسئلة المتكررة

تفاصيل المطور