技能 Data Engineer

📊

Data Engineer

Name: Data Engineer
Author: sickn33

安全

构建数据管道和数据仓库

使用完整的现代数据技术栈（包括Apache Spark、dbt和Airflow）设计和实施可扩展的数据管道、现代数据仓库和实时流架构。

支持: Claude Codex Code(CC)

📊 69 充足

下载技能 ZIP

在 Claude 中上传

前往设置 → 功能 → 技能 → 上传技能

开启并开始使用

测试它

正在使用“Data Engineer”。 Design a modern data stack with dbt and Snowflake for a marketing analytics platform

预期结果:

包含以下内容的综合架构文档：1）展示Fivetran用于摄取、dbt用于转换、Snowflake用于存储的数据流图。2）包含事实表和维度表的星型架构设计。3）包含源、暂存和集市层的dbt模型。4）关键指标的数据质量测试。5）成本优化建议。

正在使用“Data Engineer”。 Build a streaming pipeline from Kafka to BigQuery

预期结果:

包含Kafka源、Flink处理和BigQuery接收器的架构概述
具有适当并行度设置的Kafka消费者配置
用于数据转换和窗口聚合的Flink作业代码
具有分区和聚类键的BigQuery模式设计
使用Datadog或Cloud Monitoring的监控设置

安全审计

安全

v1 • 2/24/2026

This is a prompt-only skill containing only text instructions for a data engineering assistant. Static analysis scanned 0 files with 0 lines of code. No suspicious patterns, dangerous code patterns, or risk factors detected. The skill defines a data engineer persona with no executable code, network requests, or system access capabilities. Safe for marketplace publication.

已扫描文件

分析行数

发现项

审计总数

未发现安全问题

审计者: claude

质量评分

架构

100

可维护性

内容

社区

100

安全

规范符合性

你能构建什么

设计现代数据技术栈

创建完整的数据平台架构，整合Fivetran、dbt和Snowflake，并包含适当的数据建模和测试。

构建实时流管道

设计可扩展的流式架构，从Kafka每秒处理数百万事件到数据仓库。

实施数据质量框架

建立全面的数据质量检查、监控和告警，确保数据管道的可靠性。

试试这些提示

设计批处理管道

设计一个使用Apache Airflow将数据从PostgreSQL摄取到Snowflake数据仓库的批处理数据管道。包括增量加载模式、数据质量检查和错误处理。

架构审查

审查我当前的数据架构，并就成本优化、性能和可扩展性提出改进建议。我的技术栈包括AWS S3、Redshift和Glue。

实时管道设计

设计一个实时流式管道，每秒处理10万条来自Kafka的事件，使用Apache Flink进行转换，并写入BigQuery进行分析。

数据质量框架

使用Great Expectations创建一个数据质量框架，验证模式、检查空值并监控我的ETL管道中的数据分布。

最佳实践

在构建管道之前先明确数据合同和服务级别协议
在管道的每个阶段实施数据质量检查
使用基础设施即代码（Terraform）进行可复现的部署

避免

构建没有模块化转换阶段的单体管道
在生产部署前跳过数据质量验证
选择云数据服务时忽略成本影响

常见问题

什么是现代数据技术栈？

现代数据技术栈是用于数据集成、转换和分析的云原生工具集合。它通常包括Fivetran或Airbyte用于摄取，dbt用于转换，Snowflake或BigQuery用于存储。

什么时候应该使用批处理vs流式处理？

对计划好的ETL作业、报告和不需要近实时数据时使用批处理。对实时分析、欺诈检测和需要即时数据可用性的应用程序使用流式处理。

什么是数据lakehouse？

数据lakehouse结合了数据湖的灵活性和数据仓库的管理特性。它使用Delta Lake或Apache Iceberg等格式在云对象存储上提供ACID事务。

如何确保管道中的数据质量？

在每个管道阶段使用Great Expectations或dbt测试实施数据质量检查。定义模式、空值、唯一性和业务逻辑的验证规则。为质量故障设置告警。

什么是变更数据捕获（CDC）？

CDC是一种识别和捕获对数据库数据所做更改的模式。它将这些更改实时流式传输到数据仓库或其他系统，实现近实时的数据同步。

如何优化数据仓库成本？

使用适当的分区和聚类、实现增量加载、利用物化视图处理常见查询，并监控查询性能以识别优化机会。

开发者详情

作者

sickn33

许可证

MIT

仓库

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/data-engineer

引用

main

文件结构

📄 SKILL.md