Habilidades senior-data-engineer

📊

senior-data-engineer

Name: senior-data-engineer
Author: davila7

Riesgo bajo ⚡ Contiene scripts📁 Acceso al sistema de archivos

Concevoir des pipelines de données évolutifs et des systèmes ETL

También disponible en: alirezarezvani

Concevoir et implémenter des pipelines de données de qualité production avec une expertise de niveau senior. Transformer des données brutes en infrastructure analytique fiable et évolutive en utilisant Python, SQL, Spark et les outils de la stack de données moderne.

Soporta: Claude Codex Code(CC)

🥉 75 Bronce

Descargar el ZIP de la skill

Subir en Claude

Ve a Configuración → Capacidades → Skills → Subir skill

Activa y empieza a usar

Pruébalo

Usando "senior-data-engineer". Design a data pipeline for processing customer clickstream data in real-time

Resultado esperado:

Source: Kafka topics for raw clickstream events
Ingestion: Apache Kafka with exactly-once semantics
Stream Processing: Apache Flink for windowed aggregations
Storage: Bronze (raw), Silver (cleaned), Gold (aggregated) layers in Delta Lake
Orchestration: Airflow for batch reconciliation jobs
Monitoring: Data quality checks at each layer, latency alerts under 100ms P99

Usando "senior-data-engineer". How do I improve data quality in my ETL pipelines

Resultado esperado:

Implement schema validation at ingestion with Great Expectations or similar
Add data profiling to detect anomalies and drift early
Use checksum validation to ensure data integrity through transformations
Build automated alerts for data quality failures
Create data contracts between producers and consumers

Usando "senior-data-engineer". What are best practices for monitoring data pipelines

Resultado esperado:

Track pipeline latency, throughput, and error rates at each stage
Implement alerting for SLA breaches and data freshness issues
Use lineage tracking to understand data flow and impact
Monitor data quality metrics: completeness, accuracy, freshness
Set up automated incident response for common failures

Auditoría de seguridad

Riesgo bajo

v5 • 1/17/2026

Static analysis flagged 57 patterns as HIGH risk, but ALL are false positives. The scanner misinterpreted documentation text ('algorithms', 'encryption') and template code (argparse calls, markdown backticks) as malicious patterns. Actual code contains only standard Python libraries, no network calls, no credential access, no external command execution. Scripts are production-ready templates with safe implementations.

Archivos escaneados

1,038

Líneas analizadas

hallazgos

Auditorías totales

Factores de riesgo

⚡ Contiene scripts (3)

scripts/pipeline_orchestrator.py:1-101 scripts/etl_performance_optimizer.py:1-101 scripts/data_quality_validator.py:1-101

📁 Acceso al sistema de archivos (3)

scripts/pipeline_orchestrator.py:7-12 scripts/etl_performance_optimizer.py:7-12 scripts/data_quality_validator.py:7-12

Auditado por: claude Ver historial de auditorías →

Puntuación de calidad

Arquitectura

100

Mantenibilidad

Contenido

Comunidad

Seguridad

Cumplimiento de la especificación

Lo que puedes crear

Concevoir l'architecture d'un pipeline

Créer des conceptions robustes de pipelines de données avec une gestion appropriée des erreurs et des stratégies de surveillance.

Améliorer la qualité des données

Implémenter des cadres de validation pour assurer l'exactitude et la cohérence des données à travers les pipelines.

Faire évoluer l'infrastructure de données

Construire une infrastructure de données prête pour la production pour les charges de travail d'apprentissage automatique et l'inférence en temps réel.

Prueba estos prompts

Conception de pipeline

Concevoir une architecture de pipeline de données de qualité production pour [cas d'utilisation]. Inclure les systèmes sources, la logique de transformation et le schéma de l'entrepôt de données cible. Recommander les outils appropriés de la stack de données moderne.

Optimisation ETL

Analyser et optimiser mon pipeline ETL pour [type de charge de travail]. Identifier les goulots d'étranglement et suggérer des améliorations pour le débit et la latence en utilisant [outil spécifique].

Cadre de qualité des données

Créer un cadre complet de validation de la qualité des données pour [type de données]. Inclure les contrôles de complétude, d'exactitude, de cohérence et de ponctualité.

Implémentation DataOps

Définir les bonnes pratiques DataOps pour notre équipe de données, y compris CI/CD pour les pipelines de données, les stratégies de surveillance et les procédures de réponse aux incidents.

Mejores prácticas

Concevoir pour l'échec avec une gestion appropriée des erreurs et des mécanismes de nouvelle tentative
Implémenter des contrôles de qualité des données aux étapes d'ingestion, de transformation et de sortie
Utiliser le traitement incrémental et la mise en cache stratégique pour optimiser les performances

Evitar

Construire des pipelines monolithiques sans gestion appropriée des erreurs
Sauter la validation des données et ne pas surveiller la santé des pipelines
Traiter les données en temps réel lorsque le traitement par lots serait suffisant

Preguntas frecuentes

Quels outils ce skill supporte-t-il ?

Python, SQL, Spark, Airflow, dbt, Kafka, Databricks, Snowflake, BigQuery et les principales plateformes cloud.

Quelle échelle ce skill peut-il aider à concevoir ?

Conceptions adaptées de l'échelle startup aux charges de travail entreprise avec des modèles de mise à l'échelle horizontale appropriés.

Comment cela s'intègre-t-il avec l'infrastructure de données existante ?

Fournit des conseils d'architecture compatibles avec les outils ETL existants, les entrepôts de données et les plateformes cloud.

Mes données sont-elles sécurisées avec ce skill ?

Ce skill est basé sur des invites. Aucune donnée n'est stockée ou transmise. Tout le traitement se fait dans votre environnement.

Pourquoi les scripts Python sont-ils des implémentations squelettes ?

Les scripts servent de modèles. L'implémentation réelle dépend de votre environnement et de vos besoins spécifiques.

En quoi cela diffère-t-il de l'embauche d'un ingénieur de données ?

Ce skill fournit des conseils d'expert et des modèles. L'implémentation, le déploiement et la maintenance réels nécessitent toujours des ingénieurs humains.