技能 wap-ingestion
📦

wap-ingestion

安全 🌐 网络访问⚙️ 外部命令⚡ 包含脚本

Write-Audit-Publish 패턴으로 S3 데이터 수집

데이터를 먼저 임시 브랜치에 스테이징하여 S3에서 안전하게 로드합니다. 프로덕션에 병합하기 전에 품질을 검증합니다. 잘못된 데이터가 메인 테이블에 도달하는 것을 방지합니다.

支持: Claude Codex Code(CC)
📊 69 充足
1

下载技能 ZIP

2

在 Claude 中上传

前往 设置 → 功能 → 技能 → 上传技能

3

开启并开始使用

测试它

正在使用“wap-ingestion”。 s3://analytics-data/user-events/에서 parquet 파일을 user_events라는 테이블로 수집

预期结果:

  • Created branch: alice.wap_user_events_1704067200
  • Imported 15,234 rows from S3
  • Quality check passed: 15,234 rows imported
  • Branch ready for inspection
  • To merge: client.merge_branch(source_ref='alice.wap_user_events_1704067200', into_branch='main')

正在使用“wap-ingestion”。 CSV 데이터 가져오기 및 메인으로 자동 병합

预期结果:

  • Created branch: bob.wap_orders_1704153600
  • Imported 5,000 rows from S3
  • Quality check passed: 5,000 rows imported
  • Successfully published orders to main
  • Cleaned up branch: bob.wap_orders_1704153600

正在使用“wap-ingestion”。 병합 전 검토를 위해 데이터 로드

预期结果:

  • Created branch: carol.wap_products_1704240000
  • Imported 2,500 rows from S3
  • Quality check passed: 2,500 rows imported
  • WAP completed successfully. Branch 'carol.wap_products_1704240000' ready for inspection.
  • Run bauplan checkout main && bauplan branch merge carol.wap_products_1704240000 after review

安全审计

安全
v5 • 1/16/2026

Legitimate data ingestion skill implementing the Write-Audit-Publish pattern. All 47 static findings are FALSE POSITIVES. The 'C2 keywords' detection was triggered by a git tree hash (hex string), 'weak crypto' by generic string patterns, and 'shell backtick' by markdown code formatting. The code uses only the bauplan SDK with hardcoded method names and no command injection vectors.

3
已扫描文件
477
分析行数
3
发现项
5
审计总数

风险因素

🌐 网络访问 (2)
⚙️ 外部命令 (1)
⚡ 包含脚本 (1)
审计者: claude 查看审计历史 →

质量评分

38
架构
100
可维护性
87
内容
19
社区
100
安全
91
规范符合性

你能构建什么

안전한 프로덕션 데이터 로딩

다운스트림 시스템에 노출하기 전에 자동 품질 검증으로 새 데이터 배치를 로드합니다.

스테이징된 데이터 업데이트

메인 분석 테이블에 병합하기 전에 검토를 위해 연구 데이터를 임시 브랜치로 가져옵니다.

모델 피처 수집

프로덕션 사용 전 감사 검사와 함께 S3 버킷에서 새 피처 데이터를 안전하게 로드합니다.

试试这些提示

기본 S3 수집
s3://my-bucket/events/*.parquet에서 bauplan 네임스페이스의 events라는 테이블로 데이터를 로드하려면 wap-ingestion을 사용하세요.
가져온 후 자동 병합
s3://data-bucket/exports/에서 customer_data.csv를 customers 테이블로 on_success=merge로 가져오려면 wap-ingestion을 사용하세요.
새 데이터 배치 추가
s3://bucket/2024-12/*.parquet에서 새 월간 데이터를 기존 sales 테이블에 추가하려면 wap-ingestion을 사용하세요.
병합 전 수동 검토
s3://bucket/new-data/에서 데이터를 products 테이블로 on_success=inspect로 로드하여 병합하기 전에 검토하려면 wap-ingestion을 사용하세요.

最佳实践

  • 병합하기 전에 스키마와 콘텐츠를 검증하려면 초기 데이터 로드에 on_success='inspect'를 사용하세요
  • 가져오기 실패 시 디버깅을 위해 브랜치를 보존하려면 on_failure='keep'을 유지하세요
  • 데이터 품질 문제를 조기에 발견하려면 병합하기 전에 bauplan 쿼리로 브랜치 변경 사항을 검토하세요

避免

  • 기존 테이블 덮어쓰기에 WAP를 사용하지 마세요 - 새 테이블 생성 또는 추가만 가능합니다
  • 감사 단계를 건너��지 마세요 - 행 개수 검사가 빈 가져오기를Catch합니다
  • 동일한 테이블 이름에서 여러 WAP 작업을 동시에 실행하지 마세요

常见问题

어떤 파일 형식이 지원되나요?
S3의 Parquet, CSV 및 JSONL 파일이 지원됩니다. 스키마는 소스 파일에서 자동으로 유추됩니다.
가져오기가 실패하면 어떻게 되나요?
실패 시 기본적으로 검사를 위해 브랜치가 보존됩니다. 실패한 브랜치를 자동 정리하려면 on_failure='delete'를 설정하세요.
기존 테이블을 수정할 수 있나요?
WAP는 기존 테이블에 새 행을 추가할 수 있지만 테이블 스키마를 수정하거나 기존 데이터를 덮어쓸 수는 없습니다.
수집 중 내 데이터가 안전한가요?
네. 데이터가 먼저 격리된 임시 브랜치에 기록됩니다. 품질 검사가 통과하고 병합이 실행된 후에만 메인에 도달합니다.
매우 큰 데이터셋은 어떻게 처리하나요?
대규모 가져오기가 지원됩니다. 품질 감사가 행 개수를 계산하여 성공적인 가져오기를 검증합니다. 더 나은 성능을 위해 S3 경로 파티셔닝을 고려하세요.
직접 가져오기와 어떻게 다른가요?
WAP는 먼저 브랜치에 데이터를 스테이징하여 안전망을 제공합니다. 잘못된 가져오기는 명시적으로 병합하지 않으면 프로덕션에 도달하지 않습니다.

开发者详情

文件结构