Compétences Data Engineer
📊

Data Engineer

Sûr

构建数据管道和数据仓库

使用完整的现代数据技术栈(包括Apache Spark、dbt和Airflow)设计和实施可扩展的数据管道、现代数据仓库和实时流架构。

Prend en charge: Claude Codex Code(CC)
🥉 73 Bronze
1

Télécharger le ZIP du skill

2

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

3

Activez et commencez à utiliser

Tester

Utilisation de "Data Engineer". Design a modern data stack with dbt and Snowflake for a marketing analytics platform

Résultat attendu:

包含以下内容的综合架构文档:1)展示Fivetran用于摄取、dbt用于转换、Snowflake用于存储的数据流图。2)包含事实表和维度表的星型架构设计。3)包含源、暂存和集市层的dbt模型。4)关键指标的数据质量测试。5)成本优化建议。

Utilisation de "Data Engineer". Build a streaming pipeline from Kafka to BigQuery

Résultat attendu:

  • 包含Kafka源、Flink处理和BigQuery接收器的架构概述
  • 具有适当并行度设置的Kafka消费者配置
  • 用于数据转换和窗口聚合的Flink作业代码
  • 具有分区和聚类键的BigQuery模式设计
  • 使用Datadog或Cloud Monitoring的监控设置

Audit de sécurité

Sûr
v1 • 2/24/2026

This is a prompt-only skill containing only text instructions for a data engineering assistant. Static analysis scanned 0 files with 0 lines of code. No suspicious patterns, dangerous code patterns, or risk factors detected. The skill defines a data engineer persona with no executable code, network requests, or system access capabilities. Safe for marketplace publication.

0
Fichiers analysés
0
Lignes analysées
0
résultats
1
Total des audits
Aucun problème de sécurité trouvé
Audité par: claude

Score de qualité

38
Architecture
100
Maintenabilité
87
Contenu
50
Communauté
100
Sécurité
83
Conformité aux spécifications

Ce que vous pouvez construire

设计现代数据技术栈

创建完整的数据平台架构,整合Fivetran、dbt和Snowflake,并包含适当的数据建模和测试。

构建实时流管道

设计可扩展的流式架构,从Kafka每秒处理数百万事件到数据仓库。

实施数据质量框架

建立全面的数据质量检查、监控和告警,确保数据管道的可靠性。

Essayez ces prompts

设计批处理管道
设计一个使用Apache Airflow将数据从PostgreSQL摄取到Snowflake数据仓库的批处理数据管道。包括增量加载模式、数据质量检查和错误处理。
架构审查
审查我当前的数据架构,并就成本优化、性能和可扩展性提出改进建议。我的技术栈包括AWS S3、Redshift和Glue。
实时管道设计
设计一个实时流式管道,每秒处理10万条来自Kafka的事件,使用Apache Flink进行转换,并写入BigQuery进行分析。
数据质量框架
使用Great Expectations创建一个数据质量框架,验证模式、检查空值并监控我的ETL管道中的数据分布。

Bonnes pratiques

  • 在构建管道之前先明确数据合同和服务级别协议
  • 在管道的每个阶段实施数据质量检查
  • 使用基础设施即代码(Terraform)进行可复现的部署

Éviter

  • 构建没有模块化转换阶段的单体管道
  • 在生产部署前跳过数据质量验证
  • 选择云数据服务时忽略成本影响

Foire aux questions

什么是现代数据技术栈?
现代数据技术栈是用于数据集成、转换和分析的云原生工具集合。它通常包括Fivetran或Airbyte用于摄取,dbt用于转换,Snowflake或BigQuery用于存储。
什么时候应该使用批处理vs流式处理?
对计划好的ETL作业、报告和不需要近实时数据时使用批处理。对实时分析、欺诈检测和需要即时数据可用性的应用程序使用流式处理。
什么是数据lakehouse?
数据lakehouse结合了数据湖的灵活性和数据仓库的管理特性。它使用Delta Lake或Apache Iceberg等格式在云对象存储上提供ACID事务。
如何确保管道中的数据质量?
在每个管道阶段使用Great Expectations或dbt测试实施数据质量检查。定义模式、空值、唯一性和业务逻辑的验证规则。为质量故障设置告警。
什么是变更数据捕获(CDC)?
CDC是一种识别和捕获对数据库数据所做更改的模式。它将这些更改实时流式传输到数据仓库或其他系统,实现近实时的数据同步。
如何优化数据仓库成本?
使用适当的分区和聚类、实现增量加载、利用物化视图处理常见查询,并监控查询性能以识别优化机会。

Détails du développeur

Structure de fichiers

📄 SKILL.md