Question 1

실시간 분석을 위해 Lambda 와 Kappa 아키텍처 중 무엇을 사용해야 하나요?

Accepted Answer

복잡한 집계와 함께 배치 정확성과 저지연 뷰가 모두 필요한 경우 Lambda 를 선택하세요. 리플레이 기능으로 충분한 더 간단한 스트림 전용 처리의 경우 Kappa 를 선택하세요. Kappa 는 운영 복잡성을 줄이지만 강력한 스트림 처리 인프라가 필요합니다.

Question 2

스트리밍 파이프라인에서 늦게 도착하는 데이터를 어떻게 처리하나요?

Accepted Answer

지연 허용 임계값을 정의하기 위해 워터마크와 함께 이벤트 시간 처리를 사용하세요. 재처리할 수 있는 늦은 데이터를 위해 사이드 출력을 구현하세요. 중요한 데이터의 경우 놓친 레코드를 수정하기 위해 정기적으로 실행되는 배치 수정 작업을 유지하세요.

Question 3

데이터 레이크 스토리지에 어떤 파일 형식을 사용해야 하나요?

Accepted Answer

압축 및 프리디케이트 푸시다운을 사용한 컬럼형 분석 워크로드에는 Parquet 을 사용하세요. Delta Lake 나 Iceberg 는 Parquet 위에 ACID 트랜잭션, 스키마 변경, 시간 이동 기능을 추가합니다. 트랜잭션 및 메타데이터 관리 필요성에 따라 선택하세요.

Question 4

변환을 위해 dbt 와 Spark 중 언제 무엇을 사용해야 하나요?

Accepted Answer

내장된 테스트 및 문서화와 함께 데이터 웨어하우스에서 SQL 기반 변환을 위해서는 dbt 를 사용하세요. 대규모 데이터 처리, Python/Scala 가 필요한 복잡한 변환, 또는 웨어하우스에 로드하기 전 데이터 레이크 작업 시 Spark 를 사용하세요.

Question 5

스트리밍에서 정확히 한 번 처리를 어떻게 달성하나요?

Accepted Answer

트랜잭션 처리와 멱등성 싱크를 결합하세요. 원자적 기록을 위해 Kafka 트랜잭션을 사용하고, 복구를 위해 상태를 체크포인팅하며, 멱등성 연산을 설계하세요. 데이터베이스의 경우 중복을 방지하기 위해 고유 제약조건과 함께 upsert 연산을 사용하세요.

Question 6

데이터 파이프라인에 필수적인 모니터링 지표는 무엇인가요?

Accepted Answer

단계별 처리 및 실패 레코드 수, 엔드투엔드 지연 시간, 데이터 신선도, 파이프라인 성공률, 리소스 사용량을 추적하세요. SLA 위반, 오류율 급증, 데이터 품질 실패에 대한 알림을 설정하세요. 중단을 유발하기 전에 용량 문제를 식별하기 위해 트렌드를 모니터링하세요.

data-engineering-data-pipeline

测试它

安全审计

质量评分

你能构建什么

신규 파이프라인 아키텍처

스트리밍 마이그레이션 전략

데이터 품질 프레임워크 구현

试试这些提示

最佳实践

避免

常见问题

开发者详情