Question 1

Spark 의 최적 파티션 크기는 무엇인가요?

Accepted Answer

파티션당 128MB~256MB 가 병렬 처리와 작업 스케줄링 오버헤드 간의 최적 균형을 제공합니다. 파티션이 너무 적으면 활용도가 낮아지고, 너무 많으면 스케줄링 오버헤드가 증가합니다.

Question 2

cache() 와 persist() 는 언제 사용해야 하나요?

Accepted Answer

간단한 인메모리 저장을 위해서는 cache() 를 사용하세요. 메모리 효율성을 위해 디스크 스폴링 (MEMORY_AND_DISK) 이나 직렬화 (MEMORY_ONLY_SER) 가 필요한 경우 특정 StorageLevel 과 함께 persist() 를 사용하세요.

Question 3

작업에 데이터 편향이 있는지 어떻게 알 수 있나요?

Accepted Answer

Spark UI 에서 평균보다 현저히 긴 지속 시간을 가진 작업을 확인하세요. 편향 비율 (최대/평균 작업 시간) 이 2x 를 초과하면 솔팅이나 AQE 가 필요한 문제 있는 편향을 나타냅니다.

Question 4

Adaptive Query Execution (AQE) 이란 무엇인가요?

Accepted Answer

AQE 는 런타임에 파티션을 병합하고 편향 조인을 처리하며 애그리게이션을 최적화하여 쿼리를 자동으로 최적화합니다. spark.sql.adaptive.enabled=true 로 활성화합니다 (Spark 3.0+).

Question 5

Parquet 와 Delta Lake 중 무엇을 사용해야 하나요?

Accepted Answer

Delta Lake 는 ACID 트랜잭션, 스키마 강제 및 시간 여행 기능을 갖춘 Parquet 의 확장입니다. 신뢰성이 필요한 프로덕션 워크로드에는 Delta 를, 간단한 읽기 중심 워크로드에는 Parquet 를 사용하세요.

Question 6

셔플 메모리 압력을 어떻게 줄일 수 있나요?

Accepted Answer

셔플 압축 (spark.shuffle.compress=true) 을 활성화하고, AQE 를 사용하여 파티션을 줄이며, 와이드 변환 전에 프리 - 애그리게이션을 수행하고, 스폴이 발생하면 spark.memory.fraction 을 늘리세요.

spark-optimization

Tester