المهارات Data Engineer
📊

Data Engineer

آمن

Construa Pipelines de Dados e Data Warehouses

Projetar e implementar pipelines de dados escaláveis, data warehouses modernos e arquiteturas de streaming em tempo real usando o stack de dados moderno completo, incluindo Apache Spark, dbt e Airflow.

يدعم: Claude Codex Code(CC)
🥉 73 برونزي
1

تنزيل ZIP المهارة

2

رفع في Claude

اذهب إلى Settings → Capabilities → Skills → Upload skill

3

فعّل وابدأ الاستخدام

اختبرها

استخدام "Data Engineer". Projetar um stack de dados moderno com dbt e Snowflake para uma plataforma de análise de marketing

النتيجة المتوقعة:

Um documento de arquitetura abrangente com: 1) Diagrama de fluxo de dados mostrando Fivetran para ingestão, dbt para transformação e Snowflake para armazenamento. 2) Design de schema estrelado com tabelas fato e dimensão. 3) Modelos dbt com camadas source, staging e marts. 4) Testes de qualidade de dados para métricas principais. 5) Recomendações de otimização de custos.

استخدام "Data Engineer". Construir um pipeline de streaming do Kafka para o BigQuery

النتيجة المتوقعة:

  • Visão geral da arquitetura com fonte Kafka, processamento Flink e sink BigQuery
  • Configuração do consumidor Kafka com configurações de paralelismo apropriadas
  • Código de job Flink para transformação de dados e agregações em janela
  • Design de schema BigQuery com chaves de particionamento e clustering
  • Configuração de monitoramento com Datadog ou Cloud Monitoring

التدقيق الأمني

آمن
v1 • 2/24/2026

This is a prompt-only skill containing only text instructions for a data engineering assistant. Static analysis scanned 0 files with 0 lines of code. No suspicious patterns, dangerous code patterns, or risk factors detected. The skill defines a data engineer persona with no executable code, network requests, or system access capabilities. Safe for marketplace publication.

0
الملفات التي تم فحصها
0
الأسطر التي تم تحليلها
0
النتائج
1
إجمالي عمليات التدقيق
لا توجد مشكلات أمنية
تم تدقيقه بواسطة: claude

درجة الجودة

38
الهندسة المعمارية
100
قابلية الصيانة
87
المحتوى
50
المجتمع
100
الأمان
83
الامتثال للمواصفات

ماذا يمكنك بناءه

Projetar um Stack de Dados Moderno

Criar uma arquitetura completa de plataforma de dados integrando Fivetran, dbt e Snowflake com modelagem e testes de dados adequados.

Construir Pipeline de Streaming em Tempo Real

Projetar uma arquitetura de streaming escalável processando milhões de eventos por segundo do Kafka para um data warehouse.

Implementar Framework de Qualidade de Dados

Estabelecer verificações abrangentes de qualidade de dados, monitoramento e alertas para garantir pipelines de dados confiáveis.

جرّب هذه الموجهات

Projetar Pipeline em Batch
Projetar um pipeline de dados em batch que ingere dados do PostgreSQL para um data warehouse Snowflake usando Apache Airflow. Incluir padrões de carregamento incremental, verificações de qualidade de dados e tratamento de erros.
Revisão de Arquitetura
Revisar minha arquitetura de dados atual e sugerir melhorias para otimização de custos, desempenho e escalabilidade. Meu stack inclui AWS S3, Redshift e Glue.
Projeto de Pipeline em Tempo Real
Projetar um pipeline de streaming em tempo real que processa 100K eventos por segundo do Kafka, aplica transformações com Apache Flink e grava no BigQuery para análise.
Framework de Qualidade de Dados
Criar um framework de qualidade de dados usando Great Expectations que valida schema, verifica valores nulos e monitora distribuições de dados em meus pipelines ETL.

أفضل الممارسات

  • Começar com contratos de dados e SLAs claros antes de construir pipelines
  • Implementar verificações de qualidade de dados em cada estágio do pipeline
  • Usar infraestrutura como código (Terraform) para implantações reproduzíveis

تجنب

  • Construir pipelines monolíticos sem estágios de transformação modulares
  • Ignorar validação de qualidade de dados antes da implantação em produção
  • Ignorar implicações de custos ao escolher serviços de dados em nuvem

الأسئلة المتكررة

O que é o stack de dados moderno?
O stack de dados moderno é uma coleção de ferramentas cloud-native para integração, transformação e análise de dados. Tipicamente inclui Fivetran ou Airbyte para ingestão, dbt para transformações e Snowflake ou BigQuery para armazenamento.
Quando devo usar processamento em batch vs streaming?
Use processamento em batch para jobs ETL agendados, relatórios e quando dados em quase tempo real não são necessários. Use streaming para análise em tempo real, detecção de fraude e aplicações que requerem disponibilidade imediata de dados.
O que é um data lakehouse?
Um data lakehouse combina a flexibilidade de um data lake com os recursos de gerenciamento de um data warehouse. Usa formatos como Delta Lake ou Apache Iceberg para fornecer transações ACID em armazenamento de objetos em nuvem.
Como garanto qualidade de dados em pipelines?
Implemente verificações de qualidade de dados usando Great Expectations ou testes dbt em cada estágio do pipeline. Defina regras de validação para schema, valores nulos, unicidade e lógica de negócios. Configure alertas para falhas de qualidade.
O que é change data capture (CDC)?
CDC é um padrão que identifica e captura alterações feitas nos dados do banco de dados. Ele transmite essas alterações em tempo real para data warehouses ou outros sistemas, permitindo sincronização de dados em quase tempo real.
Como otimizo custos de data warehouse?
Use particionamento e clustering de dados apropriados, implemente carregamento incremental, aproveite visualizações materializadas para consultas comuns e monitore o desempenho das consultas para identificar oportunidades de otimização.

تفاصيل المطور

المؤلف

sickn33

الترخيص

MIT

مرجع

main

بنية الملفات

📄 SKILL.md