creating-bauplan-pipelines
bauplan 데이터 파이프라인을 SQL 및 Python 모델로 만들기
처음부터 데이터 파이프라인을 만들려면 DAG 아키텍처, 구체화 전략, 프로젝트 구조에 대한 이해가 필요합니다. 이 스킬은 적절한 분기 안전성, SQL 퍼스트 노드 패턴, Python 변환 모델과 함께 bauplan 프로젝트를 설정하는 과정을 안내합니다.
下载技能 ZIP
在 Claude 中上传
前往 设置 → 功能 → 技能 → 上传技能
开启并开始使用
测试它
正在使用“creating-bauplan-pipelines”。 Create a new bauplan pipeline project with a Python model that aggregates daily sales
预期结果:
- Your pipeline will be created in a new project folder with:
- - bauplan_project.yml with a unique UUID
- - models.py with the daily_sales aggregation model
- - Proper decorators for materialization and Python version
- - Columns specification for output validation
正在使用“creating-bauplan-pipelines”。 Write a SQL model that reads from raw_orders and outputs cleaned_orders with selected columns
预期结果:
- SQL model created with:
- - Filename determines output table name (cleaned_orders.sql → cleaned_orders)
- - FROM clause reading from raw_orders lakehouse table
- - Materialization strategy comment for REPLACE
- - Best practice guidance for first-node usage
正在使用“creating-bauplan-pipelines”。 Help me set up branch safety and run my first pipeline dry-run
预期结果:
- Branch safety checklist:
- - Get username with 'bauplan info'
- - Create dev branch: bauplan branch create <username>.<branch_name>
- - Checkout dev branch before running pipelines
- - Dry run command: bauplan run --dry-run
安全审计
低风险This is a documentation-only skill containing no executable code. All 165 static findings are false positives: markdown backticks were misidentified as shell execution, version numbers as weak crypto, and CLI documentation as reconnaissance. The skill guides users through bauplan CLI usage safely.
风险因素
⚡ 包含脚本 (1)
⚙️ 外部命令 (135)
🌐 网络访问 (2)
质量评分
你能构建什么
새로운 파이프라인 프로젝트 설정
적절한 DAG 구조와 데이터 변환을 위한 SQL/Python 모델로 새로운 bauplan 프로젝트 초기화하기
변환 모델 만들기
열 사양 및 데이터 품질 기대값이 포함된 유효성이 검증된 변환 모델 작성하기
피처 파이프라인 구축
머신러닝 피처 엔지니어링을 위한 데이터 집계 다중 단계 파이프라인 만들기
试试这些提示
Help me create a new bauplan pipeline project. I want to read from the taxi_fhvhv and taxi_zones tables in the lakehouse and create a daily_summary output table.
Write a Python model that joins trips with zone information. Use I/O pushdown with columns and filter parameters. Add output column validation.
Create a Python model that takes multiple input tables. Show how to specify multiple bauplan.Model() parameters for a join transformation.
Add data quality expectations to my pipeline. I need checks for no null values, unique IDs, and reasonable value ranges.
最佳实践
- lakehouse 테이블에서 직접 읽는 첫 번째 노드에만 SQL 모델 사용하기
- 출력 유효성 검사를 위해 @bauplan.model()에서 항상 columns 매개변수 지정하기
- I/O 푸시다운 성능을 위해 bauplan.Model()에서 columns 및 filter 매개변수 사용하기
避免
- 첫 번째 노드 이상의 복잡한 변환에 SQL 모델 사용하기
- @ bauplan.model() 선언에서 columns 매개변수 생략하기
- 개발 브랜치 대신 main 브랜치에서 파이프라인 실행하기