مهام Spark البطيئة تُهدر الموارد وتُؤخر الرؤى. توفر هذه المهارة أنماطاً مُثبتة للتقسيم والتخزين المؤقت وتحسين الخلط وضبط الذاكرة لتسريع خطوط أنابيب البيانات الخاصة بك.
تنزيل ZIP المهارة
رفع في Claude
اذهب إلى Settings → Capabilities → Skills → Upload skill
فعّل وابدأ الاستخدام
اختبرها
استخدام "spark-optimization". تكوين Spark لمجموعة بيانات 100GB مع تخزين مؤقت متكرر
النتيجة المتوقعة:
- spark.executor.memory: 8g
- spark.executor.memoryOverhead: 2g
- spark.memory.fraction: 0.6
- spark.sql.shuffle.partitions: 200
- spark.sql.adaptive.enabled: true
- مُوصى به: استخدم MEMORY_AND_DISK_SER لاستمرارية التخزين المؤقت
استخدام "spark-optimization". إصلاح دمج بطيء مع انحراف بيانات 100x
النتيجة المتوقعة:
- تم الكشف: نسبة انحراف القسم 15.3x (الحد: 2x)
- الحل: تطبيق تقنية دمج مُوزّع مع 10 دلاء
- بديل: تمكين معالجة دمج الانحراف AQE
- التحسين المُتوقع: إكمال أسرع 5-8 أضعاف
التدقيق الأمني
آمنAll static analyzer findings were false positives. The skill contains Python/PySpark code examples for Apache Spark optimization. External command detections misidentified Python code as Ruby/shell execution. Network findings were documentation URLs. No actual security risks detected.
درجة الجودة
ماذا يمكنك بناءه
مهندس بيانات يُحسّن خط أنابيب ETL
تقليل وقت تشغيل المهمة الدفعية الليلية من 4 ساعات إلى 45 دقيقة من خلال تطبيق تقليم الأقسام ودمج البث وضبط الذاكرة.
فريق تحليلات يُوسّع التقارير
معالجة نمو البيانات 10 أضعاف دون بنية تحتية إضافية بتطبيق AQE واستراتيجيات التخزين المؤقت المناسبة و Z-ordering.
مطور يُصحح استعلامات بطيئة
تحديد وإصلاح مشاكل انحراف البيانات التي تُسبب مهامًا بطيئة باستخدام تحليل الأقسام وأدوات كشف الانحراف.
جرّب هذه الموجهات
ساعدني في تكوين جلسة Spark لمهمة ETL إنتاجية تُعالج 500GB من البيانات يوميًا. ما الإعدادات التي يجب استخدامها للتقسيم والذاكرة؟
دمجي بين جدول 5TB وجدول بحث 5MB بطيء للغاية. كيف يمكنني تحسين هذا؟
بعض المهام في عملية groupBy تستغرق 10 أضعاف الوقت مقارنة بالآخرين. ساعدني في كشف وإصلاح انحراف البيانات في مهمة Spark الخاصة بي.
راجع خط أنابيب Spark الخاص بي: قراءة 1TB Parquet، دمج 3 جداول، تجميع حسب التاريخ والمنطقة، كتابة مخرجات مقسمة. قدم استراتيجية تحسين كاملة تشمل AQE والذاكرة وإعدادات الخلط.
أفضل الممارسات
- تمكين Adaptive Query Execution (AQE) لدمج الأقسام التلقائي ومعالجة الانحراف
- استخدام دمج البث للجداول الأصغر من 50MB لإلغاء overhead الخلط
- ضبط حجم الأقسام إلى 128MB-256MB للتوازي الأمثل دون overhead جدولة
تجنب
- استخدام collect() على DataFrames الكبيرة مما يُسبب أخطاء OOM في السائق
- الإفراط في تخزين DataFrames المؤقت المستخدمة مرة واحدة فقط، مما يُهدر الذاكرة
- تجاهل انحراف البيانات الذي يُسبب مهامًا بطيئة وانتهاء وقت المهمة