data-engineering-data-pipeline
확장 가능한 데이터 파이프라인 구축
프로덕션 수준의 데이터 파이프라인 설계는 복잡하고 오류 발생 가능성이 높습니다. 이 스킬은 ETL, 스트리밍, 레이크하우스 시스템을 위한 검증된 아키텍처 패턴과 구현 가이드를 제공합니다.
Télécharger le ZIP du skill
Importer dans Claude
Allez dans Paramètres → Capacités → Skills → Importer un skill
Activez et commencez à utiliser
Tester
Utilisation de "data-engineering-data-pipeline". MySQL 에서 Snowflake 로 일일 고객 데이터 동기화를 위한 배치 파이프라인 설계
Résultat attendu:
아키텍처: 증분 로딩을 포함한 ELT 패턴. 구성 요소: (1) 'updated_at' 워터마크 컬럼을 사용한 추출, (2) S3 staging 에 원본 데이터 로드, (3) dbt 를 사용한 Snowflake 에서 변환, (4) dbt 테스트를 통한 검증, (5) Slack 을 통한 실패 알림. 주요 고려사항: 늦게 도착하는 데이터 처리, 재시도 로직 구현, 행 수 변동 모니터링.
Utilisation de "data-engineering-data-pipeline". 스트리밍 파이프라인에서 스키마 변경을 어떻게 처리하나요?
Résultat attendu:
전략: 호환성 검사를 포함한 스키마 레지스트리 사용. 추가 변경의 경우 기본값 사용. 주요 변경의 경우 마이그레이션 중 이중 기록 구현. 도구: Kafka 를 위한 Confluent Schema Registry, mergeSchema 옵션을 포함한 Delta Lake 스키마 변경. 배포 전 항상 하위 호환성을 테스트하세요.
Audit de sécurité
Risque faibleAll static analyzer findings are false positives. The skill is documentation-only, providing architectural guidance and educational code examples. No executable code, external commands, or security risks detected. Safe for publication.
Problèmes à risque faible (3)
Score de qualité
Ce que vous pouvez construire
신규 파이프라인 아키텍처
스프레드시트에서 모던 데이터 스택으로 마이그레이션하는 스타트업을 위해 처음부터 완전한 데이터 파이프라인을 설계합니다.
스트리밍 마이그레이션 전략
Kafka 와 스트림 처리 프레임워크를 사용하여 기존 배치 파이프라인을 실시간 스트리밍 아키텍처로 전환합니다.
데이터 품질 프레임워크 구현
Great Expectations 와 dbt 테스트를 사용하여 자동화된 알림과 함께 포괄적인 데이터 품질 검사를 구현합니다.
Essayez ces prompts
PostgreSQL 에서 매일 데이터를 추출하여 변환한 후 데이터 웨어하우스에 로드하는 데이터 파이프라인을 구축해야 합니다. 어떤 아키텍처를 사용해야 하며 주요 구성 요소는 무엇입니까?
애플리케이션에서 발생하는 대량의 이벤트 데이터를 보유하고 있으며 실시간에 가까운 분석이 필요합니다. 분당 100 만 이벤트를 처리하는 사용 사례에 대해 Lambda 와 Kappa 아키텍처를 비교해 주세요.
Great Expectations 를 사용하여 orders 테이블에 대한 데이터 품질 검사를 구현하는 방법을 보여주세요. order ID 의 고유성, customer ID 의 null 금지, order 금액의 양수 검증을 수행해야 합니다.
월간 데이터 파이프라인 비용이 두 배로 증가했습니다. 아키텍처를 검토하고 SLA 를 유지하면서 비용을 절감할 구체적인 권장사항을 제공해 주세요. 현재 스택: Airflow, Spark, S3, Redshift.
Bonnes pratiques
- 아키텍처 패턴 선택 전 데이터 소스, 데이터 양, 지연 시간 요구사항, 대상 시스템 평가
- 전체 데이터셋 재처리를 피하기 위해 워터마크 컬럼을 사용한 증분 처리 구현
- 검증 실패 시 자동 알림과 함께 각 파이프라인 단계에서 데이터 품질 게이트 추가
Éviter
- 특정 데이터 양 및 처리 속도 요구사항에 맞게 수정하지 않고 프로덕션 패턴 복사
- 비즈니스 요구사항과 팀 역량 대신 트렌드에 기반하여 아키텍처 선택
- 모니터링, 가시성, 운영 런북보다 기능 우선시