data-engineering-data-pipeline
Construa Pipelines de Dados Escaláveis
Projetar pipelines de dados prontos para produção é complexo e propenso a erros. Esta habilidade fornece padrões arquiteturais comprovados e orientação de implementação para sistemas ETL, streaming e lakehouse.
Télécharger le ZIP du skill
Importer dans Claude
Allez dans Paramètres → Capacités → Skills → Importer un skill
Activez et commencez à utiliser
Tester
Utilisation de "data-engineering-data-pipeline". Design a batch pipeline for daily customer data sync from MySQL to Snowflake
Résultat attendu:
Arquitetura: padrão ELT com carregamento incremental. Componentes: (1) Extração usando coluna de marcação temporal 'updated_at', (2) Carregamento de dados brutos para staging no S3, (3) Transformação no Snowflake com dbt, (4) Validação com testes dbt, (5) Alerta em falhas via Slack. Considerações-chave: Lidar com dados que chegam atrasados, implementar lógica de repetição, monitorar variância de contagem de linhas.
Utilisation de "data-engineering-data-pipeline". How do I handle schema evolution in a streaming pipeline?
Résultat attendu:
Estratégia: Usar schema registry com verificações de compatibilidade. Para mudanças aditivas, usar valores padrão. Para mudanças disruptivas, implementar dual-write durante a migração. Ferramentas: Confluent Schema Registry para Kafka, evolução de esquema do Delta Lake com opção mergeSchema. Sempre teste compatibilidade retroativa antes do deployment.
Audit de sécurité
Risque faibleAll static analyzer findings are false positives. The skill is documentation-only, providing architectural guidance and educational code examples. No executable code, external commands, or security risks detected. Safe for publication.
Problèmes à risque faible (3)
Score de qualité
Ce que vous pouvez construire
Arquitetura de Pipeline Greenfield
Projetar um pipeline de dados completo do zero para uma startup migrando de planilhas para uma stack de dados moderna.
Estratégia de Migração para Streaming
Converter pipelines em batch existentes para arquitetura de streaming em tempo real usando Kafka e frameworks de processamento de streams.
Implementação de Framework de Qualidade de Dados
Implementar verificações abrangentes de qualidade de dados usando Great Expectations e testes dbt com alertas automatizados.
Essayez ces prompts
I need to build a data pipeline that extracts data from PostgreSQL daily, transforms it, and loads it to a data warehouse. What architecture should I use and what are the key components?
We have high-volume event data from our application and need near-real-time analytics. Compare Lambda vs Kappa architecture for our use case with 1M events per minute.
Show me how to implement data quality checks for our orders table using Great Expectations. We need to validate uniqueness of order IDs, non-null customer IDs, and positive order amounts.
Our monthly data pipeline costs have doubled. Review our architecture and provide specific recommendations to reduce costs while maintaining SLA. Current stack: Airflow, Spark, S3, Redshift.
Bonnes pratiques
- Avaliar fontes de dados, volume, requisitos de latência e sistemas de destino antes de selecionar padrões de arquitetura
- Implementar processamento incremental com colunas de marcação temporal para evitar reprocessamento de datasets inteiros
- Adicionar gates de qualidade de dados em cada estágio do pipeline com alertas automatizados em falhas de validação
Éviter
- Copiar padrões de produção sem adaptar aos requisitos específicos de volume e velocidade de dados
- Escolher arquitetura baseada em tendências ao invés de necessidades de negócio e capacidades da equipe
- Priorizar features ao invés de monitoramento, observabilidade e runbooks operacionais