Question 1

Spark 的最佳分區大小是多少？

Accepted Answer

每個分區 128MB 到 256MB 可在平行處理和任務排程開銷之間提供最佳平衡。分區太少會導致利用率不足；分區太多會增加排程開銷。

Question 2

我應該何時使用 cache() 或 persist()？

Accepted Answer

使用 cache() 進行簡單的記憶體內儲存。當您需要磁碟溢出 (MEMORY_AND_DISK) 或序列化 (MEMORY_ONLY_SER) 以提高記憶體效率時，使用具有特定 StorageLevel 的 persist()。

Question 3

我如何知道我的工作是否有資料偏斜？

Accepted Answer

檢查 Spark UI 中執行時間顯著長於平均任務的任務。偏斜比率（最大/平均任務時間）超過 2 倍表示存在需要使用鹽值或 AQE 的問題偏斜。

Question 4

什麼是自適應查詢執行 (AQE)？

Accepted Answer

AQE 透過在執行時期合併分區、處理偏斜連結和最佳化聚合，自動最佳化查詢。使用 spark.sql.adaptive.enabled=true 啟用（Spark 3.0+）。

Question 5

我應該使用 Parquet 或 Delta Lake 嗎？

Accepted Answer

Delta Lake 建構在 Parquet 之上���具有 ACID 交易、結構描述強制和時間旅行功能。對於需要可靠性的生產工作負載使用 Delta；對於簡單的讀取密集型工作負載使用 Parquet。

Question 6

如何減少 shuffle 記憶體壓力？

Accepted Answer

啟用 shuffle 壓縮 (spark.shuffle.compress=true)、使用 AQE 減少分區、在廣泛轉換前預聚合，以及如果發生溢出則增加 spark.memory.fraction。

spark-optimization

測試它