Question 1

Spark 的最佳分区大小是多少？

Accepted Answer

每个分区 128MB 到 256MB 可在并行度和任务调度开销之间取得最佳平衡。分区太少会导致资源利用不足；分区太多会增加调度开销。

Question 2

什么时候应该使用 cache() vs persist()？

Accepted Answer

使用 cache() 进行简单的内存存储。当需要磁盘溢出（MEMORY_AND_DISK）或序列化（MEMORY_ONLY_SER）以提高内存效率时，使用带有特定 StorageLevel 的 persist()。

Question 3

如何判断我的作业是否存在数据倾斜？

Accepted Answer

检查 Spark UI 中执行时间明显长于平均水平的任务。倾斜比（最大/平均任务时间）超过 2x 表示存在需要使用盐技术或 AQE 处理的倾斜问题。

Question 4

什么是自适应查询执行 (AQE)？

Accepted Answer

AQE 通过在运行时合并分区、处理倾斜连接和优化聚合来自动优化查询。使用 spark.sql.adaptive.enabled=true 启用（Spark 3.0+）。

Question 5

我应该使用 Parquet 还是 Delta Lake？

Accepted Answer

Delta Lake 在 Parquet 基础上构建了 ACID 事务、模式强制和时间旅行功能。在需要可靠性的生产工作负载中使用 Delta；在简单的读取密集型工作负载中使用 Parquet。

Question 6

如何减少 shuffle 内存压力？

Accepted Answer

启用 shuffle 压缩（spark.shuffle.compress=true），使用 AQE 减少分区，在宽转换之前进行预聚合，如果发生溢出则增加 spark.memory.fraction。

spark-optimization

测试它