senior-data-engineer
Concevoir des pipelines de données évolutifs et des systèmes ETL
También disponible en: alirezarezvani
Concevoir et implémenter des pipelines de données de qualité production avec une expertise de niveau senior. Transformer des données brutes en infrastructure analytique fiable et évolutive en utilisant Python, SQL, Spark et les outils de la stack de données moderne.
Descargar el ZIP de la skill
Subir en Claude
Ve a Configuración → Capacidades → Skills → Subir skill
Activa y empieza a usar
Pruébalo
Usando "senior-data-engineer". Design a data pipeline for processing customer clickstream data in real-time
Resultado esperado:
- Source: Kafka topics for raw clickstream events
- Ingestion: Apache Kafka with exactly-once semantics
- Stream Processing: Apache Flink for windowed aggregations
- Storage: Bronze (raw), Silver (cleaned), Gold (aggregated) layers in Delta Lake
- Orchestration: Airflow for batch reconciliation jobs
- Monitoring: Data quality checks at each layer, latency alerts under 100ms P99
Usando "senior-data-engineer". How do I improve data quality in my ETL pipelines
Resultado esperado:
- Implement schema validation at ingestion with Great Expectations or similar
- Add data profiling to detect anomalies and drift early
- Use checksum validation to ensure data integrity through transformations
- Build automated alerts for data quality failures
- Create data contracts between producers and consumers
Usando "senior-data-engineer". What are best practices for monitoring data pipelines
Resultado esperado:
- Track pipeline latency, throughput, and error rates at each stage
- Implement alerting for SLA breaches and data freshness issues
- Use lineage tracking to understand data flow and impact
- Monitor data quality metrics: completeness, accuracy, freshness
- Set up automated incident response for common failures
Auditoría de seguridad
Riesgo bajoStatic analysis flagged 57 patterns as HIGH risk, but ALL are false positives. The scanner misinterpreted documentation text ('algorithms', 'encryption') and template code (argparse calls, markdown backticks) as malicious patterns. Actual code contains only standard Python libraries, no network calls, no credential access, no external command execution. Scripts are production-ready templates with safe implementations.
Factores de riesgo
⚡ Contiene scripts (3)
📁 Acceso al sistema de archivos (3)
Puntuación de calidad
Lo que puedes crear
Concevoir l'architecture d'un pipeline
Créer des conceptions robustes de pipelines de données avec une gestion appropriée des erreurs et des stratégies de surveillance.
Améliorer la qualité des données
Implémenter des cadres de validation pour assurer l'exactitude et la cohérence des données à travers les pipelines.
Faire évoluer l'infrastructure de données
Construire une infrastructure de données prête pour la production pour les charges de travail d'apprentissage automatique et l'inférence en temps réel.
Prueba estos prompts
Concevoir une architecture de pipeline de données de qualité production pour [cas d'utilisation]. Inclure les systèmes sources, la logique de transformation et le schéma de l'entrepôt de données cible. Recommander les outils appropriés de la stack de données moderne.
Analyser et optimiser mon pipeline ETL pour [type de charge de travail]. Identifier les goulots d'étranglement et suggérer des améliorations pour le débit et la latence en utilisant [outil spécifique].
Créer un cadre complet de validation de la qualité des données pour [type de données]. Inclure les contrôles de complétude, d'exactitude, de cohérence et de ponctualité.
Définir les bonnes pratiques DataOps pour notre équipe de données, y compris CI/CD pour les pipelines de données, les stratégies de surveillance et les procédures de réponse aux incidents.
Mejores prácticas
- Concevoir pour l'échec avec une gestion appropriée des erreurs et des mécanismes de nouvelle tentative
- Implémenter des contrôles de qualité des données aux étapes d'ingestion, de transformation et de sortie
- Utiliser le traitement incrémental et la mise en cache stratégique pour optimiser les performances
Evitar
- Construire des pipelines monolithiques sans gestion appropriée des erreurs
- Sauter la validation des données et ne pas surveiller la santé des pipelines
- Traiter les données en temps réel lorsque le traitement par lots serait suffisant