Question 1

자주 접근하는 데이터에는 어떤 압축을 사용해야 하나요?

Accepted Answer

핫 데이터에는 Snappy를 사용하세요. 빠른 압축 해제를 제공하며(2-3배 압축), 쿼리 지연이 저장 절감보다 중요한 실시간 분석 워크로드에 이상적입니다.

Question 2

올바른 로우 그룹 크기는 어떻게 선택하나요?

Accepted Answer

로우 그룹당 비압축 100MB-1GB를 목표로 하세요. 더 작은 그룹은 메타데이터 오버헤드를 늘리고, 더 큰 그룹은 효과적인 predicate pushdown을 방해합니다. 100_000_000 rows로 시작해 데이터 특성에 맞게 조정하세요.

Question 3

딕셔너리 인코딩이란 무엇이며 언제 사용해야 하나요?

Accepted Answer

딕셔너리 인코딩은 고유 값을 한 번만 저장하고 인덱스로 참조합니다. 낮은 카디널리티 컬럼(예: 상태, 카테고리, 국가 코드)에 사용하면 적합한 컬럼에서 5-10배 압축을 달성할 수 있습니다.

Question 4

Parquet 1.0과 2.0 중 무엇을 사용해야 하나요?

Accepted Answer

새 프로젝트에는 Parquet 2.0을 사용하세요. 더 긴 문자열, 더 나은 타입 확장, 더 효율적인 인코딩을 지원합니다. arrow parquet 크레이트는 기본적으로 2.0입니다.

Question 5

재시도를 포함해 클라우드 스토리지의 Parquet 파일을 어떻게 처리하나요?

Accepted Answer

오브젝트 스토어 클라이언트에 재시도 로직을 구성하세요. 대부분의 S3 클라이언트는 일시적인 네트워크 문제를 처리하기 위해 max_retries와 timeout 설정을 포함한 재시도 구성을 지원합니다.

Question 6

스트리밍과 배치 수집의 차이는 무엇인가요?

Accepted Answer

스트리밍은 배치가 도착하는 대로 점진적으로 처리하여 메모리 사용을 일정하게 유지합니다. 수집은 모든 배치를 먼저 메모리에 로드하므로 대용량 파일에서 OOM 오류를 유발할 수 있습니다. 몇 GB를 넘는 파일은 항상 스트리밍하세요.

parquet-optimization

测试它