المهارات Data Engineer
📊

Data Engineer

آمن

Construire des pipelines de données et des entrepôts de données

Concevoir et implémenter des pipelines de données évolutifs, des entrepôts de données modernes et des architectures de streaming en temps réel en utilisant la pile de données moderne complète, notamment Apache Spark, dbt et Airflow.

يدعم: Claude Codex Code(CC)
🥉 73 برونزي
1

تنزيل ZIP المهارة

2

رفع في Claude

اذهب إلى Settings → Capabilities → Skills → Upload skill

3

فعّل وابدأ الاستخدام

اختبرها

استخدام "Data Engineer". Design a modern data stack with dbt and Snowflake for a marketing analytics platform

النتيجة المتوقعة:

Un document d'architecture complet avec : 1) Diagramme de flux de données montrant Fivetran pour l'ingestion, dbt pour la transformation et Snowflake pour le stockage. 2) Conception de schéma en étoile avec tables de faits et de dimensions. 3) Modèles dbt avec couches source, staging et marts. 4) Tests de qualité de données pour les métriques clés. 5) Recommandations d'optimisation des coûts.

استخدام "Data Engineer". Build a streaming pipeline from Kafka to BigQuery

النتيجة المتوقعة:

  • Vue d'ensemble de l'architecture avec source Kafka, traitement Flink et sink BigQuery
  • Configuration du consommateur Kafka avec des paramètres de parallélisme appropriés
  • Code de job Flink pour la transformation des données et les agrégations fenêtrées
  • Conception de schéma BigQuery avec clés de partitionnement et de clustering
  • Configuration de surveillance avec Datadog ou Cloud Monitoring

التدقيق الأمني

آمن
v1 • 2/24/2026

This is a prompt-only skill containing only text instructions for a data engineering assistant. Static analysis scanned 0 files with 0 lines of code. No suspicious patterns, dangerous code patterns, or risk factors detected. The skill defines a data engineer persona with no executable code, network requests, or system access capabilities. Safe for marketplace publication.

0
الملفات التي تم فحصها
0
الأسطر التي تم تحليلها
0
النتائج
1
إجمالي عمليات التدقيق
لا توجد مشكلات أمنية
تم تدقيقه بواسطة: claude

درجة الجودة

38
الهندسة المعمارية
100
قابلية الصيانة
87
المحتوى
50
المجتمع
100
الأمان
83
الامتثال للمواصفات

ماذا يمكنك بناءه

Concevoir une pile de données moderne

Créer une architecture complète de plateforme de données intégrant Fivetran, dbt et Snowflake avec une modélisation et des tests de données appropriés.

Construire un pipeline de streaming en temps réel

Concevoir une architecture de streaming évolutive traitant des millions d'événements par seconde de Kafka vers un entrepôt de données.

Implémenter un framework de qualité de données

Établir des vérifications complètes de qualité de données, une surveillance et des alertes pour garantir des pipelines de données fiables.

جرّب هذه الموجهات

Concevoir un pipeline par lots
Design a batch data pipeline that ingests data from PostgreSQL to a Snowflake data warehouse using Apache Airflow. Include incremental loading patterns, data quality checks, and error handling.
Revue d'architecture
Review my current data architecture and suggest improvements for cost optimization, performance, and scalability. My stack includes AWS S3, Redshift, and Glue.
Conception de pipeline en temps réel
Design a real-time streaming pipeline that processes 100K events per second from Kafka, applies transformations with Apache Flink, and writes to BigQuery for analytics.
Framework de qualité de données
Create a data quality framework using Great Expectations that validates schema, checks for null values, and monitors data distributions across my ETL pipelines.

أفضل الممارسات

  • Commencer par des contrats de données et des SLA clairs avant de construire les pipelines
  • Implémenter des vérifications de qualité de données à chaque étape du pipeline
  • Utiliser l'infrastructure as code (Terraform) pour des déploiements reproductibles

تجنب

  • Construire des pipelines monolithiques sans étapes de transformation modulaires
  • Ignorer la validation de la qualité de données avant le déploiement en production
  • Ignorer les implications de coûts lors du choix des services de données cloud

الأسئلة المتكررة

Qu'est-ce que la pile de données moderne ?
La pile de données moderne est un ensemble d'outils cloud-native pour l'intégration, la transformation et l'analytique de données. Elle comprend typiquement Fivetran ou Airbyte pour l'ingestion, dbt pour les transformations, et Snowflake ou BigQuery pour le stockage.
Quand dois-je utiliser le traitement par lots vs le streaming ?
Utilisez le traitement par lots pour les jobs ETL planifiés, la production de rapports et lorsque des données en temps quasi réel ne sont pas requises. Utilisez le streaming pour l'analytique en temps réel, la détection de fraude et les applications nécessitant une disponibilité immédiate des données.
Qu'est-ce qu'un data lakehouse ?
Un data lakehouse combine la flexibilité d'un data lake avec les fonctionnalités de gestion d'un entrepôt de données. Il utilise des formats comme Delta Lake ou Apache Iceberg pour fournir des transactions ACID sur le stockage objet cloud.
Comment assurer la qualité des données dans les pipelines ?
Implémentez des vérifications de qualité de données utilisant Great Expectations ou des tests dbt à chaque étape du pipeline. Définissez des règles de validation pour le schéma, les valeurs nulles, l'unicité et la logique métier. Configurez des alertes pour les échecs de qualité.
Qu'est-ce que le change data capture (CDC) ?
Le CDC (Change Data Capture) est un modèle qui identifie et capture les modifications apportées aux données de la base de données. Il diffuse ces modifications en temps réel vers des entrepôts de données ou d'autres systèmes, permettant une synchronisation des données en temps quasi réel.
Comment optimiser les coûts d'entrepôt de données ?
Utilisez un partitionnement et un clustering de données appropriés, implémentez un chargement incrémental, exploitez les vues matérialisées pour les requêtes courantes et surveillez les performances des requêtes pour identifier les opportunités d'optimisation.

تفاصيل المطور

المؤلف

sickn33

الترخيص

MIT

مرجع

main

بنية الملفات

📄 SKILL.md