Data Engineer
Construire des pipelines de données et des entrepôts de données
Concevoir et implémenter des pipelines de données évolutifs, des entrepôts de données modernes et des architectures de streaming en temps réel en utilisant la pile de données moderne complète, notamment Apache Spark, dbt et Airflow.
تنزيل ZIP المهارة
رفع في Claude
اذهب إلى Settings → Capabilities → Skills → Upload skill
فعّل وابدأ الاستخدام
اختبرها
استخدام "Data Engineer". Design a modern data stack with dbt and Snowflake for a marketing analytics platform
النتيجة المتوقعة:
Un document d'architecture complet avec : 1) Diagramme de flux de données montrant Fivetran pour l'ingestion, dbt pour la transformation et Snowflake pour le stockage. 2) Conception de schéma en étoile avec tables de faits et de dimensions. 3) Modèles dbt avec couches source, staging et marts. 4) Tests de qualité de données pour les métriques clés. 5) Recommandations d'optimisation des coûts.
استخدام "Data Engineer". Build a streaming pipeline from Kafka to BigQuery
النتيجة المتوقعة:
- Vue d'ensemble de l'architecture avec source Kafka, traitement Flink et sink BigQuery
- Configuration du consommateur Kafka avec des paramètres de parallélisme appropriés
- Code de job Flink pour la transformation des données et les agrégations fenêtrées
- Conception de schéma BigQuery avec clés de partitionnement et de clustering
- Configuration de surveillance avec Datadog ou Cloud Monitoring
التدقيق الأمني
آمنThis is a prompt-only skill containing only text instructions for a data engineering assistant. Static analysis scanned 0 files with 0 lines of code. No suspicious patterns, dangerous code patterns, or risk factors detected. The skill defines a data engineer persona with no executable code, network requests, or system access capabilities. Safe for marketplace publication.
درجة الجودة
ماذا يمكنك بناءه
Concevoir une pile de données moderne
Créer une architecture complète de plateforme de données intégrant Fivetran, dbt et Snowflake avec une modélisation et des tests de données appropriés.
Construire un pipeline de streaming en temps réel
Concevoir une architecture de streaming évolutive traitant des millions d'événements par seconde de Kafka vers un entrepôt de données.
Implémenter un framework de qualité de données
Établir des vérifications complètes de qualité de données, une surveillance et des alertes pour garantir des pipelines de données fiables.
جرّب هذه الموجهات
Design a batch data pipeline that ingests data from PostgreSQL to a Snowflake data warehouse using Apache Airflow. Include incremental loading patterns, data quality checks, and error handling.
Review my current data architecture and suggest improvements for cost optimization, performance, and scalability. My stack includes AWS S3, Redshift, and Glue.
Design a real-time streaming pipeline that processes 100K events per second from Kafka, applies transformations with Apache Flink, and writes to BigQuery for analytics.
Create a data quality framework using Great Expectations that validates schema, checks for null values, and monitors data distributions across my ETL pipelines.
أفضل الممارسات
- Commencer par des contrats de données et des SLA clairs avant de construire les pipelines
- Implémenter des vérifications de qualité de données à chaque étape du pipeline
- Utiliser l'infrastructure as code (Terraform) pour des déploiements reproductibles
تجنب
- Construire des pipelines monolithiques sans étapes de transformation modulaires
- Ignorer la validation de la qualité de données avant le déploiement en production
- Ignorer les implications de coûts lors du choix des services de données cloud