data-engineering-data-pipeline
Construye Pipelines de Datos Escalables
Diseñar pipelines de datos listos para producción es complejo y propenso a errores. Esta skill proporciona patrones arquitectónicos probados y orientación de implementación para sistemas ETL, streaming y lakehouse.
Descargar el ZIP de la skill
Subir en Claude
Ve a Configuración → Capacidades → Skills → Subir skill
Activa y empieza a usar
Pruébalo
Usando "data-engineering-data-pipeline". Design a batch pipeline for daily customer data sync from MySQL to Snowflake
Resultado esperado:
Arquitectura: Patrón ELT con carga incremental. Componentes: (1) Extraer usando columna de marca de agua 'updated_at', (2) Cargar datos crudos a staging S3, (3) Transformar en Snowflake con dbt, (4) Validar con pruebas dbt, (5) Alertar sobre fallos via Slack. Consideraciones clave: Manejar datos que llegan tarde, implementar lógica de reintentos, monitorear varianza en conteo de filas.
Usando "data-engineering-data-pipeline". How do I handle schema evolution in a streaming pipeline?
Resultado esperado:
Estrategia: Usa schema registry con verificaciones de compatibilidad. Para cambios aditivos, usa valores por defecto. Para cambios rupturantes, implementa dual-write durante la migración. Herramientas: Confluent Schema Registry para Kafka, evolución de esquema Delta Lake con opción mergeSchema. Siempre prueba compatibilidad backward antes del despliegue.
Auditoría de seguridad
Riesgo bajoAll static analyzer findings are false positives. The skill is documentation-only, providing architectural guidance and educational code examples. No executable code, external commands, or security risks detected. Safe for publication.
Problemas de riesgo bajo (3)
Puntuación de calidad
Lo que puedes crear
Arquitectura de Pipeline desde Cero
Diseña un pipeline de datos completo desde cero para una startup que migra de hojas de cálculo a un stack de datos moderno.
Estrategia de Migración a Streaming
Convierte pipelines batch existentes a arquitectura de streaming en tiempo real usando Kafka y frameworks de procesamiento de streams.
Implementación de Framework de Calidad de Datos
Implementa verificaciones de calidad de datos comprehensivas usando Great Expectations y pruebas dbt con alertas automatizadas.
Prueba estos prompts
Necesito construir un pipeline de datos que extraiga datos de PostgreSQL diariamente, los transforme y los cargue en un data warehouse. ¿Qué arquitectura debo usar y cuáles son los componentes clave?
Tenemos datos de eventos de alto volumen de nuestra aplicación y necesitamos analytics en tiempo casi real. Compara Lambda vs Kappa para nuestro caso de uso con 1M de eventos por minuto.
Muéstrame cómo implementar verificaciones de calidad de datos para nuestra tabla de pedidos usando Great Expectations. Necesitamos validar la unicidad de IDs de pedidos, IDs de cliente no nulos y montos de pedidos positivos.
Nuestros costos mensuales del pipeline de datos se han duplicado. Revisa nuestra arquitectura y proporciona recomendaciones específicas para reducir costos manteniendo el SLA. Stack actual: Airflow, Spark, S3, Redshift.
Mejores prácticas
- Evalúa fuentes de datos, volumen, requisitos de latencia y sistemas objetivo antes de seleccionar patrones arquitectónicos
- Implementa procesamiento incremental con columnas de marca de agua para evitar reprocesar datasets completos
- Añade puertas de calidad de datos en cada etapa del pipeline con alertas automatizadas sobre fallos de validación
Evitar
- Copiar patrones de producción sin adaptar a requisitos específicos de volumen y velocidad de datos
- Elegir arquitectura basándose en tendencias en lugar de necesidades del negocio y capacidades del equipo
- Priorizar características sobre monitoreo, observabilidad y runbooks operacionales
Preguntas frecuentes
¿Debo usar arquitectura Lambda o Kappa para analytics en tiempo real?
¿Cómo manejo datos que llegan tarde en pipelines de streaming?
¿Qué formato de archivo debo usar para almacenamiento en data lake?
¿Cuándo debo usar dbt versus Spark para transformaciones?
¿Cómo logro procesamiento exactly-once en streaming?
¿Qué métricas de monitoreo son esenciales para pipelines de datos?
Detalles del desarrollador
Autor
sickn33Licencia
MIT
Repositorio
https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/data-engineering-data-pipelineRef.
main
Estructura de archivos
📄 SKILL.md