⚡

spark-optimization

Name: spark-optimization
Author: wshobson

آمن 🌐 الوصول إلى الشبكة⚙️ الأوامر الخارجية

تحسين أداء Spark للخطوط الكبيرة

متاح أيضًا من: sickn33

تستهلك مهام Spark البطيئة وقت المجموعة وتؤخر التحليلات. توفر هذه المهارة أنماط مثبتة لتحسين التقسيم والتخزين المؤقت والضمائر والذاكرة لتحسين الأداء.

يدعم: Claude Codex Code(CC)

📊 69 كافٍ

تنزيل ZIP المهارة

رفع في Claude

اذهب إلى Settings → Capabilities → Skills → Upload skill

فعّل وابدأ الاستخدام

اختبرها

استخدام "spark-optimization". Suggest Spark optimizations for a slow join and high shuffle spill.

النتيجة المتوقعة:

فعّل AQE والتعامل مع التضمير المائل لتقسيم الأقسام الساخنة.
بث الجدول الصغير لتجنب التهيئة من هذا الجانب.
خفّض حجم قسم التهيئة وفعّل الضغط لتقليل التسرب.

استخدام "spark-optimization". How do I optimize partitioning for 500GB of daily data?

النتيجة المتوقعة:

استهدف 128-256 ميجابايت لكل قسم للتوازي المتوازن.
لـ 500 جيجابايت، استخدم تقريبًا 2000-4000 قسم مبدئيًا.
اضبط بناءً على مدة المهمة الفعلية في واجهة Spark.
فكّر في partitionBy على أعمدة التاريخ للقراءات القابلة للاختزال.

استخدام "spark-optimization". My cache is not improving performance. What am I doing wrong?

النتيجة المتوقعة:

تأكد من استدعاء count() أو إجراء لتجسيد التخزين المؤقت.
تحقق من أنك تُعيد استخدام DataFrame عدة مرات.
تأكد من أن DataFrame يناسب الذاكرة دون تسريب مفرط.
استخدم unpersist() عند الانتهاء لتحرير الذاكرة للعمليات الأخرى.

التدقيق الأمني

آمن

v4 • 1/17/2026

Pure documentation skill containing only markdown content with Apache Spark tuning guidance. No executable code, credential access, network calls, or malicious patterns detected. All 43 static findings are false positives triggered by misidentified Spark terminology.

الملفات التي تم فحصها

590

الأسطر التي تم تحليلها

النتائج

إجمالي عمليات التدقيق

عوامل الخطر

🌐 الوصول إلى الشبكة (4)

skill-report.json:6 SKILL.md:413 SKILL.md:414 SKILL.md:415

⚙️ الأوامر الخارجية (23)

تم تدقيقه بواسطة: claude عرض سجل التدقيق →

درجة الجودة

الهندسة المعمارية

100

قابلية الصيانة

المحتوى

المجتمع

100

الأمان

الامتثال للمواصفات

ماذا يمكنك بناءه

تقليل وقت المهمة الليلية

حلل خط أنابيب الدفعة البطيء واحصل على خطوات الضبط للتقسيمات والضمائر والتخزين المؤقت.

إصلاح التضمير المائل

طبّق إرشادات AQE والتسمية لإزالة المهام طويلة التشغيل.

توحيد تكوينات Spark

إنشاء خط أساسي للمنفذ وتكوين التهيئة للمجموعات الجديدة.

جرّب هذه الموجهات

تسريع مهمتي

تستغرق مهمة Spark الخاصة بي ساعتين وتستخدم groupBy على جداول كبيرة. اقترح تحسينات سريعة للتقسيمات والتخزين المؤقت والضمائر.

حجم التقسيم

أعالج 1 تيرابايت من بيانات parquet يوميًا. أوصِ بعدد التقسيمات وأحجام الملفات، واشرح كيفية ضبط تقسيمات التهيئة.

تشخيص التضمير

ضمير على customer_id يحتوي على بعض المفاتيح الساخنة ومهام طويلة. قدّم إعدادات AQE ونهج تسمية يدوي.

ضبط الذاكرة

نستخدم منفذات 8g ونرى تسريبات متكررة. اقترح ذاكرة ومصاريف وإعدادات تهيئة مع تبرير.

أفضل الممارسات

استخدم AQE وراقب واجهة Spark للتضمير والتسريب.
استهدف أحجام أقسام من 128 إلى 256 ميجابايت للتوازي المتوازن.
فضّل الدوال المدمجة على UDFs لتحسين أفضل.

تجنب

جمع مجموعات البيانات الكبيرة إلى المنفذ.
التخزين المؤقت المفرط لـ DataFrames كبيرة متعددة بدون unpersist.
استخدام التهيئة الواسعة للتجميعات البسيطة بدون تجميع مسبق.

الأسئلة المتكررة

هل هذا متوافق مع PySpark و Spark SQL؟

نعم. تغطي الإرشادات تكوينات PySpark DataFrame و Spark SQL.

ما حدود التوصيات؟

إنها أنماط عامة تتطلب التحقق من حجم البيانات والقيود المجموعة.

هل يمكن دمجه مع Databricks أو EMR؟

نعم. يمكنك تطبيق نفس تكوينات Spark وخطوات التحسين في تلك المنصات.

هل يصل إلى بياناتي أو مجموعتي؟

لا. يوفر إرشادات فقط ولا يتصل بأنظمتك.

ماذا لو لم يتحسن الأداء؟

قدّم مقاييس واجهة Spark وخطط الاستعلام وأحجام البيانات لتحسين التوصيات.

كيف يقارن بالنصائح العامة للتحسين؟

يركز على مراحل التنفيذ الخاصة بـ Spark والتهيئة وسلوك الذاكرة مع أمثلة تكوين ملموسة.

تفاصيل المطور

المؤلف

wshobson

الترخيص

MIT

المستودع

https://github.com/wshobson/agents/tree/main/plugins/data-engineering/skills/spark-optimization

مرجع

main

بنية الملفات

📄 SKILL.md