Question 1

ما هو حجم القسم الأمثل لـ Spark؟

Accepted Answer

128MB إلى 256MB لكل قسم يوفر أفضل توازن بين التوازي و overhead جدولة المهام. الأقسام القليلة جدًا تُسبب استخدامًا غير كافٍ؛ الكثيرة جدًا تزيد overhead الجدولة.

Question 2

متى يجب استخدام cache() مقابل persist()؟

Accepted Answer

استخدم cache() للتخزين البسيط في الذاكرة. استخدم persist() مع StorageLevel محدد عندما تحتاج تفريغ القرص (MEMORY_AND_DISK) أو التسلسل (MEMORY_ONLY_SER) لكفاءة الذاكرة.

Question 3

كيف أعرف إذا كانت مهمتي بها انحراف بيانات؟

Accepted Answer

افحص Spark UI للمهام ذات المدة الأطول بشكل ملحوظ من المتوسط. نسبة انحراف (أقصى/متوسط وقت المهمة) فوق 2x تشير إلى انحراف إشكالي يتطلب توزيعًا أو AQE.

Question 4

ما هو Adaptive Query Execution (AQE)؟

Accepted Answer

AQE تُحسّن الاستعلامات تلقائيًا وقت التشغيل عن طريق دمج الأقسام ومعالجة انحراف الدمج وتحسين التجميعات. مُكّن باستخدام spark.sql.adaptive.enabled=true (Spark 3.0+).

Question 5

هل يجب استخدام Parquet أم Delta Lake؟

Accepted Answer

Delta Lake يبني على Parquet مع معاملات ACID وفرض المخطط والسفر الزمني. استخدم Delta لأحمال العمل الإنتاجية التي تتطلب الموثوقية؛ Parquet لأحمال العمل البسيطة كثيفة القراءة.

Question 6

كيف يمكنني تقليل ضغط ذاكرة الخلط؟

Accepted Answer

فعّل ضغط الخلط (spark.shuffle.compress=true)، استخدم AQE لتقليل الأقسام، اجمع مسبقًا قبل التحويلات الواسعة، وزد spark.memory.fraction إذا حدثت تسريبات.

spark-optimization

اختبرها

التدقيق الأمني

درجة الجودة

ماذا يمكنك بناءه

مهندس بيانات يُحسّن خط أنابيب ETL

فريق تحليلات يُوسّع التقارير

مطور يُصحح استعلامات بطيئة

جرّب هذه الموجهات

أفضل الممارسات

تجنب

الأسئلة المتكررة

تفاصيل المطور