Habilidades senior-data-engineer
📊

senior-data-engineer

Riesgo bajo ⚡ Contiene scripts📁 Acceso al sistema de archivos

Concevoir des pipelines de données évolutifs et des systèmes ETL

También disponible en: alirezarezvani

Concevoir et implémenter des pipelines de données de qualité production avec une expertise de niveau senior. Transformer des données brutes en infrastructure analytique fiable et évolutive en utilisant Python, SQL, Spark et les outils de la stack de données moderne.

Soporta: Claude Codex Code(CC)
🥉 75 Bronce
1

Descargar el ZIP de la skill

2

Subir en Claude

Ve a Configuración → Capacidades → Skills → Subir skill

3

Activa y empieza a usar

Pruébalo

Usando "senior-data-engineer". Design a data pipeline for processing customer clickstream data in real-time

Resultado esperado:

  • Source: Kafka topics for raw clickstream events
  • Ingestion: Apache Kafka with exactly-once semantics
  • Stream Processing: Apache Flink for windowed aggregations
  • Storage: Bronze (raw), Silver (cleaned), Gold (aggregated) layers in Delta Lake
  • Orchestration: Airflow for batch reconciliation jobs
  • Monitoring: Data quality checks at each layer, latency alerts under 100ms P99

Usando "senior-data-engineer". How do I improve data quality in my ETL pipelines

Resultado esperado:

  • Implement schema validation at ingestion with Great Expectations or similar
  • Add data profiling to detect anomalies and drift early
  • Use checksum validation to ensure data integrity through transformations
  • Build automated alerts for data quality failures
  • Create data contracts between producers and consumers

Usando "senior-data-engineer". What are best practices for monitoring data pipelines

Resultado esperado:

  • Track pipeline latency, throughput, and error rates at each stage
  • Implement alerting for SLA breaches and data freshness issues
  • Use lineage tracking to understand data flow and impact
  • Monitor data quality metrics: completeness, accuracy, freshness
  • Set up automated incident response for common failures

Auditoría de seguridad

Riesgo bajo
v5 • 1/17/2026

Static analysis flagged 57 patterns as HIGH risk, but ALL are false positives. The scanner misinterpreted documentation text ('algorithms', 'encryption') and template code (argparse calls, markdown backticks) as malicious patterns. Actual code contains only standard Python libraries, no network calls, no credential access, no external command execution. Scripts are production-ready templates with safe implementations.

8
Archivos escaneados
1,038
Líneas analizadas
2
hallazgos
5
Auditorías totales

Puntuación de calidad

68
Arquitectura
100
Mantenibilidad
87
Contenido
21
Comunidad
90
Seguridad
91
Cumplimiento de la especificación

Lo que puedes crear

Concevoir l'architecture d'un pipeline

Créer des conceptions robustes de pipelines de données avec une gestion appropriée des erreurs et des stratégies de surveillance.

Améliorer la qualité des données

Implémenter des cadres de validation pour assurer l'exactitude et la cohérence des données à travers les pipelines.

Faire évoluer l'infrastructure de données

Construire une infrastructure de données prête pour la production pour les charges de travail d'apprentissage automatique et l'inférence en temps réel.

Prueba estos prompts

Conception de pipeline
Concevoir une architecture de pipeline de données de qualité production pour [cas d'utilisation]. Inclure les systèmes sources, la logique de transformation et le schéma de l'entrepôt de données cible. Recommander les outils appropriés de la stack de données moderne.
Optimisation ETL
Analyser et optimiser mon pipeline ETL pour [type de charge de travail]. Identifier les goulots d'étranglement et suggérer des améliorations pour le débit et la latence en utilisant [outil spécifique].
Cadre de qualité des données
Créer un cadre complet de validation de la qualité des données pour [type de données]. Inclure les contrôles de complétude, d'exactitude, de cohérence et de ponctualité.
Implémentation DataOps
Définir les bonnes pratiques DataOps pour notre équipe de données, y compris CI/CD pour les pipelines de données, les stratégies de surveillance et les procédures de réponse aux incidents.

Mejores prácticas

  • Concevoir pour l'échec avec une gestion appropriée des erreurs et des mécanismes de nouvelle tentative
  • Implémenter des contrôles de qualité des données aux étapes d'ingestion, de transformation et de sortie
  • Utiliser le traitement incrémental et la mise en cache stratégique pour optimiser les performances

Evitar

  • Construire des pipelines monolithiques sans gestion appropriée des erreurs
  • Sauter la validation des données et ne pas surveiller la santé des pipelines
  • Traiter les données en temps réel lorsque le traitement par lots serait suffisant

Preguntas frecuentes

Quels outils ce skill supporte-t-il ?
Python, SQL, Spark, Airflow, dbt, Kafka, Databricks, Snowflake, BigQuery et les principales plateformes cloud.
Quelle échelle ce skill peut-il aider à concevoir ?
Conceptions adaptées de l'échelle startup aux charges de travail entreprise avec des modèles de mise à l'échelle horizontale appropriés.
Comment cela s'intègre-t-il avec l'infrastructure de données existante ?
Fournit des conseils d'architecture compatibles avec les outils ETL existants, les entrepôts de données et les plateformes cloud.
Mes données sont-elles sécurisées avec ce skill ?
Ce skill est basé sur des invites. Aucune donnée n'est stockée ou transmise. Tout le traitement se fait dans votre environnement.
Pourquoi les scripts Python sont-ils des implémentations squelettes ?
Les scripts servent de modèles. L'implémentation réelle dépend de votre environnement et de vos besoins spécifiques.
En quoi cela diffère-t-il de l'embauche d'un ingénieur de données ?
Ce skill fournit des conseils d'expert et des modèles. L'implémentation, le déploiement et la maintenance réels nécessitent toujours des ingénieurs humains.