Question 1

Какой оптимальный размер секции для Spark?

Accepted Answer

128-256 МБ на секцию обеспечивает лучший баланс между параллелизмом и накладными расходами планирования задач. Слишком мало секций вызывает недоиспользование; слишком много увеличивает накладные расходы планирования.

Question 2

Когда использовать cache() вместо persist()?

Accepted Answer

Используйте cache() для простого хранения в памяти. Используйте persist() с определённым StorageLevel, когда нужно выгрузку на диск (MEMORY_AND_DISK) или сериализацию (MEMORY_ONLY_SER) для эффективности памяти.

Question 3

Как узнать, есть ли в задаче перекос данных?

Accepted Answer

Проверьте Spark UI для задач с существенно большей длительностью, чем в среднем. Коэффициент перекоса (макс./сред. время задачи) выше 2x указывает на проблематичный перекос, требующий сэлирования или AQE.

Question 4

Что такое Adaptive Query Execution (AQE)?

Accepted Answer

AQE автоматически оптимизирует запросы во время выполнения путём объединения секций, обработки перекоса соединений и оптимизации агрегаций. Включите через spark.sql.adaptive.enabled=true (Spark 3.0+).

Question 5

Использовать Parquet или Delta Lake?

Accepted Answer

Delta Lake расширяет Parquet с ACID-транзакциями, принудительным применением схемы и путешествием во времени. Используйте Delta для production-нагрузок, требующих надёжности; Parquet для простых нагрузок с интенсивным чтением.

Question 6

Как уменьшить давление памяти при перемешивании?

Accepted Answer

Включите сжатие перемешивания (spark.shuffle.compress=true), используйте AQE для уменьшения секций, предварительно агрегируйте перед широкими преобразованиями и увеличьте spark.memory.fraction при переполнениях.

spark-optimization

Протестировать

Аудит безопасности

Оценка качества

Что вы можете построить

Инженер данных оптимизирует ETL-пайплайн

Аналитическая команда масштабирует отчёты

Разработчик отлаживает медленные запросы

Попробуйте эти промпты

Лучшие практики

Избегать

Часто задаваемые вопросы

Сведения для разработчиков