Compétences data-engineering-data-pipeline
📦

data-engineering-data-pipeline

Risque faible

بناء خطوط بيانات قابلة للتوسع

تصميم خطوط بيانات جاهزة للإنتاج أمر معقد وعرضة للأخطاء. توفر هذه المهارة أنماطًا معمارية مثبتة وإرشادات تنفيذ لأنظمة ETL والبث المباشر وأنظمة Lakehouse.

Prend en charge: Claude Codex Code(CC)
📊 71 Adéquat
1

Télécharger le ZIP du skill

2

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

3

Activez et commencez à utiliser

Tester

Utilisation de "data-engineering-data-pipeline". تصميم خط دفعات لمزامنة بيانات العملاء اليومية من MySQL إلى Snowflake

Résultat attendu:

المعمارية: نمط ELT مع التحميل التزايدي. المكونات: (1) الاستخراج باستخدام عمود العلامة المائية 'updated_at'، (2) تحميل البيانات الخام إلى S3 staging، (3) التحويل في Snowflake باستخدام dbt، (4) التحقق باختبارات dbt، (5) التنبيه عند الفشل عبر Slack. الاعتبارات الرئيسية: التعامل مع البيانات المتأخرة، تنفيذ منطق إعادة المحاولة، مراقبة تباين عدد الصفوف.

Utilisation de "data-engineering-data-pipeline". كيف أتعامل مع تطور المخطط في خط بث مباشر؟

Résultat attendu:

الاستراتيجية: استخدام سجل المخططات مع فحوصات التوافق. للتغييرات الإضافية، استخدم القيم الافتراضية. للتغييرات الجوهرية، نفذ الكتابة المزدوجة أثناء الترحيل. الأدوات: Confluent Schema Registry لـ Kafka، تطور مخطط Delta Lake مع خيار mergeSchema. اختبر دائمًا التوافق مع الإصدارات السابقة قبل النشر.

Audit de sécurité

Risque faible
v1 • 2/24/2026

All static analyzer findings are false positives. The skill is documentation-only, providing architectural guidance and educational code examples. No executable code, external commands, or security risks detected. Safe for publication.

1
Fichiers analysés
204
Lignes analysées
3
résultats
1
Total des audits
Problèmes à risque faible (3)
Static Analyzer False Positives - Weak Cryptographic Algorithm
Static analyzer flagged lines 3, 28, 39, 42, 94, and 167 as containing weak cryptographic algorithms. Review confirms these are false positives - the flagged lines contain architectural terms (ETL/ELT, Lambda, Kappa) and documentation headers, not cryptographic code.
Static Analyzer False Positive - External Command Execution
Static analyzer flagged line 124 as Ruby/shell backtick execution. Review confirms this is a Python code example showing batch ingestion patterns, not shell command execution.
Static Analyzer False Positives - Reconnaissance Patterns
Static analyzer flagged lines 49, 116, and 184 as system/network reconnaissance. Review confirms these are data pipeline terminology (metadata tracking fields, partitioning strategies, monitoring alerts), not reconnaissance activity.
Audité par: claude

Score de qualité

38
Architecture
100
Maintenabilité
87
Contenu
50
Communauté
84
Sécurité
91
Conformité aux spécifications

Ce que vous pouvez construire

معمارية خطوط جديدة

تصميم خط بيانات كامل من الصفر لشركة ناشئة تنتقل من جداول البيانات إلى حزمة بيانات حديثة.

استراتيجية الترحيل بالبث المباشر

تحويل خطوط البيانات الحالية من الدفعات إلى معمارية البث المباشر في الوقت الفعلي باستخدام Kafka وأطر معالجة البث.

تنفيذ إطار جودة البيانات

تنفيذ فحوصات شاملة لجودة البيانات باستخدام Great Expectations واختبارات dbt مع تنبيهات آلية.

Essayez ces prompts

تصميم خط أساسي
أحتاج إلى بناء خط بيانات يستخرج البيانات من PostgreSQL يوميًا، ويحولها، ويحملها إلى مستودع بيانات. ما المعمارية التي يجب استخدامها وما هي المكونات الرئيسية؟
اختيار معمارية البث المباشر
لدينا بيانات أحداث عالية الحجم من تطبيقنا ونحتاج إلى تحليلات شبه فورية. قارن بين معمارية Lambda و Kappa لحالة الاستخدام لدينا مع مليون حدث في الدقيقة.
تنفيذ جودة البيانات
أرني كيفية تنفيذ فحوصات جودة البيانات لجدول الطلبات باستخدام Great Expectations. نحتاج إلى التحقق من تفرد معرفات الطلبات، وعدم وجود قيم NULL في معرفات العملاء، وكون مبالغ الطلبات موجبة.
مراجعة تحسين التكلفة
تكاليف خطوط بياناتنا الشهرية تضاعفت. راجع معماريتنا وقدم توصيات محددة لتقليل التكاليف مع الحفاظ على SLA. التقنيات الحالية: Airflow و Spark و S3 و Redshift.

Bonnes pratiques

  • قيّم مصادر البيانات والحجم ومتطلبات زمن الوصول والأنظمة المستهدفة قبل اختيار أنماط المعمارية
  • نفذ المعالجة التزايدية مع أعمدة العلامات المائية لتجنب إعادة معالجة مجموعات البيانات بالكامل
  • أضف بوابات جودة البيانات في كل مرحلة من مراحل الخط مع تنبيهات آلية عند فشل التحقق

Éviter

  • نسخ أنماط الإنتاج دون تكييفها مع متطلبات حجم وسرعة البيانات المحددة
  • اختيار المعمارية بناءً على الاتجاهات بدلاً من احتياجات الأعمال وقدرات الفريق
  • إعطاء الأولوية للميزات على المراقبة وإمكانية الرصد والكتب التشغيلية

Foire aux questions

هل يجب استخدام معمارية Lambda أم Kappa للتحليلات في الوقت الفعلي؟
اختر Lambda عندما تحتاج إلى كل من دقة الدفعات وعروض منخفضة الكمون مع تجميعات معقدة. اختر Kappa للمعالجة المبسطة بالبث المباشر فقط حيث تكون إمكانية إعادة التشغيل كافية. يقلل Kappa التعقيد التشغيلي لكنه يتطلب بنية تحتية قوية لمعالجة البث المباشر.
كيف أتعامل مع البيانات المتأخرة في خطوط البث المباشر؟
استخدم معالجة وقت الحدث مع العلامات المائية لتحديد عتبات التأخير. نفذ مخرجات جانبية للبيانات المتأخرة التي يمكن إعادة معالجتها. للبيانات الحرجة، احتفظ بمهمة تصحيح دفعات تعمل دوريًا لإصلاح أي سجلات مفقودة.
ما تنسيق الملف الذي يجب استخدامه لتخزين بحيرة البيانات؟
استخدم Parquet لأحمال التحليلات العمودية مع الضغط ودفع المسندات. تضيف Delta Lake أو Iceberg معاملات ACID وتطور المخططات والسفر عبر الزمن فوق Parquet. اختر بناءً على حاجتك للمعاملات وإدارة البيانات الوصفية.
متى يجب استخدام dbt مقابل Spark للتحويلات؟
استخدم dbt للتحويلات القائمة على SQL في مستودع البيانات الخاص بك مع اختبار وتوثيق مدمجين. استخدم Spark لمعالجة البيانات واسعة النطاق والتحويلات المعقدة التي تتطلب Python/Scala، أو عند العمل مع بحيرات البيانات قبل التحميل إلى المستودع.
كيف أحقق معالجة مرة واحدة بالضبط في البث المباشر؟
اجمع بين الأحواض المتطابقة مع المعالجة التبادلية. استخدم معاملات Kafka للكتابات الذرية، ونقطة التحقق للحالة للاسترداد، وصمم عمليات متطابقة. لقواعد البيانات، استخدم عمليات upsert مع قيود فريدة لمنع التكرارات.
ما مقاييس المراقبة الأساسية لخطوط البيانات؟
تتبع: السجلات المعالجة والفاشلة في كل مرحلة، وزمن الوصول من البداية للنهاية، وحداثة البيانات، ومعدل نجاح الخط، واستخدام الموارد. اضبط التنبيهات على انتهاكات SLA، وارتفاع معدلات الأخطاء، وفشل جودة البيانات. راقب الاتجاهات لتحديد مشكلات السعة قبل أن تسبب توقفات.

Détails du développeur

Structure de fichiers

📄 SKILL.md