Data Engineer
构建数据管道和数据仓库
使用完整的现代数据技术栈(包括Apache Spark、dbt和Airflow)设计和实施可扩展的数据管道、现代数据仓库和实时流架构。
Télécharger le ZIP du skill
Importer dans Claude
Allez dans Paramètres → Capacités → Skills → Importer un skill
Activez et commencez à utiliser
Tester
Utilisation de "Data Engineer". Design a modern data stack with dbt and Snowflake for a marketing analytics platform
Résultat attendu:
包含以下内容的综合架构文档:1)展示Fivetran用于摄取、dbt用于转换、Snowflake用于存储的数据流图。2)包含事实表和维度表的星型架构设计。3)包含源、暂存和集市层的dbt模型。4)关键指标的数据质量测试。5)成本优化建议。
Utilisation de "Data Engineer". Build a streaming pipeline from Kafka to BigQuery
Résultat attendu:
- 包含Kafka源、Flink处理和BigQuery接收器的架构概述
- 具有适当并行度设置的Kafka消费者配置
- 用于数据转换和窗口聚合的Flink作业代码
- 具有分区和聚类键的BigQuery模式设计
- 使用Datadog或Cloud Monitoring的监控设置
Audit de sécurité
SûrThis is a prompt-only skill containing only text instructions for a data engineering assistant. Static analysis scanned 0 files with 0 lines of code. No suspicious patterns, dangerous code patterns, or risk factors detected. The skill defines a data engineer persona with no executable code, network requests, or system access capabilities. Safe for marketplace publication.
Score de qualité
Ce que vous pouvez construire
设计现代数据技术栈
创建完整的数据平台架构,整合Fivetran、dbt和Snowflake,并包含适当的数据建模和测试。
构建实时流管道
设计可扩展的流式架构,从Kafka每秒处理数百万事件到数据仓库。
实施数据质量框架
建立全面的数据质量检查、监控和告警,确保数据管道的可靠性。
Essayez ces prompts
设计一个使用Apache Airflow将数据从PostgreSQL摄取到Snowflake数据仓库的批处理数据管道。包括增量加载模式、数据质量检查和错误处理。
审查我当前的数据架构,并就成本优化、性能和可扩展性提出改进建议。我的技术栈包括AWS S3、Redshift和Glue。
设计一个实时流式管道,每秒处理10万条来自Kafka的事件,使用Apache Flink进行转换,并写入BigQuery进行分析。
使用Great Expectations创建一个数据质量框架,验证模式、检查空值并监控我的ETL管道中的数据分布。
Bonnes pratiques
- 在构建管道之前先明确数据合同和服务级别协议
- 在管道的每个阶段实施数据质量检查
- 使用基础设施即代码(Terraform)进行可复现的部署
Éviter
- 构建没有模块化转换阶段的单体管道
- 在生产部署前跳过数据质量验证
- 选择云数据服务时忽略成本影响