Data Engineer
بناء أنابيب البيانات ومستودعات البيانات
تصميم وتنفيذ أنابيب بيانات قابلة للتوسع، ومستودعات بيانات حديثة، وبنيات بث في الوقت الفعلي باستخدام مجموعة أدوات البيانات الحديثة الكاملة بما في ذلك Apache Spark و dbt و Airflow.
Télécharger le ZIP du skill
Importer dans Claude
Allez dans Paramètres → Capacités → Skills → Importer un skill
Activez et commencez à utiliser
Tester
Utilisation de "Data Engineer". صمم مجموعة بيانات حديثة مع dbt و Snowflake لمنصة تحليلات التسويق
Résultat attendu:
وثيقة بنية شاملة تتضمن: 1) مخطط تدفق البيانات يوضح Fivetran للاستيعاب، و dbt للتحويل، و Snowflake للتخزين. 2) تصميم مخطط النجمة مع جداول الحقائق والأبعاد. 3) نماذج dbt مع طبقات المصدر والمرحلة و marts. 4) اختبارات جودة البيانات للمقاييس الرئيسية. 5) توصيات لتحسين التكلفة.
Utilisation de "Data Engineer". بناء أنبوب بث من Kafka إلى BigQuery
Résultat attendu:
- نظرة عامة على البنية مع مصدر Kafka، ومعالجة Flink، وحوض BigQuery
- تكوين مستهلك Kafka مع إعدادات التوازي المناسبة
- كود وظيفة Flink لتحويل البيانات والتجميعات المحددة بالنوافذ
- تصميم مخطط BigQuery مع مفاتيح التقسيم والتجميع
- إعداد المراقبة مع Datadog أو Cloud Monitoring
Audit de sécurité
SûrThis is a prompt-only skill containing only text instructions for a data engineering assistant. Static analysis scanned 0 files with 0 lines of code. No suspicious patterns, dangerous code patterns, or risk factors detected. The skill defines a data engineer persona with no executable code, network requests, or system access capabilities. Safe for marketplace publication.
Score de qualité
Ce que vous pouvez construire
تصميم مجموعة أدوات بيانات حديثة
إنشاء بنية منصة بيانات كاملة تدمج Fivetran و dbt و Snowflake مع نمذجة واختبار مناسبين للبيانات.
بناء أنبوب بث في الوقت الفعلي
تصميم بنية بث قابلة للتوسع تعالج ملايين الأحداث في الثانية من Kafka إلى مستودع بيانات.
تنفيذ إطار عمل لجودة البيانات
إنشاء فحوصات شاملة لجودة البيانات ومراقبة وتنبيهات لضمان موثوقية أنابيب البيانات.
Essayez ces prompts
صمم أنبوب بيانات دفعي يستوعب البيانات من PostgreSQL إلى مستودع بيانات Snowflake باستخدام Apache Airflow. ضمن أنماط التحميل التزايدي، وفحوصات جودة البيانات، والتعامل مع الأخطاء.
راجع بنية البيانات الحالية لدي واقترح تحسينات لتحسين التكلفة والأداء وقابلية التوسع. تتضمن تقنيتي AWS S3 و Redshift و Glue.
صمم أنبوب بث في الوقت الفعلي يعالج 100 ألف حدث في الثانية من Kafka، ويطبق تحويلات مع Apache Flink، ويكتب إلى BigQuery للتحليلات.
أنشئ إطار عمل لجودة البيانات باستخدام Great Expectations الذي يتحقق من المخطط، ويتحقق من القيم الفارغة، ويراقب توزيعات البيانات عبر أنابيب ETL الخاصة بي.
Bonnes pratiques
- ابدأ بعقود بيانات و SLAs واضحة قبل بناء الأنابيب
- نفذ فحوصات جودة البيانات في كل مرحلة من مراحل الأنبوب
- استخدم البنية التحتية ككود (Terraform) للنشر القابل للتكرار
Éviter
- بناء أنابيب أحادية دون مراحل تحويل معيارية
- تخطي التحقق من صحة جودة البيانات قبل النشر إلى الإنتاج
- تجاهل آثار التكلفة عند اختيار خدمات بيانات السحابة