Compétences data-engineering-data-pipeline
📦

data-engineering-data-pipeline

Risque faible

Skalierbare Daten-Pipelines erstellen

Das Design produktionsreifer Daten-Pipelines ist komplex und fehleranfällig. Dieser Skill bietet bewährte Architekturmuster und Implementierungsanleitungen für ETL-, Streaming- und Lakehouse-Systeme.

Prend en charge: Claude Codex Code(CC)
📊 71 Adéquat
1

Télécharger le ZIP du skill

2

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

3

Activez et commencez à utiliser

Tester

Utilisation de "data-engineering-data-pipeline". Entwerfen Sie eine Batch-Pipeline für die tägliche Kundendaten-Synchronisation von MySQL nach Snowflake

Résultat attendu:

Architektur: ELT-Muster mit inkrementellem Laden. Komponenten: (1) Extraktion mit Wassermark-Spalte 'updated_at', (2) Laden der Rohdaten in S3-Staging, (3) Transformation in Snowflake mit dbt, (4) Validierung mit dbt-Tests, (5) Alert bei Fehlern via Slack. Wichtige Überlegungen: Umgang mit verspätet eintreffenden Daten, Implementierung von Retry-Logik, Überwachung der Zeilenanzahl-Varianz.

Utilisation de "data-engineering-data-pipeline". Wie gehe ich mit Schema-Evolution in einer Streaming-Pipeline um?

Résultat attendu:

Strategie: Schema-Registry mit Kompatibilitätsprüfungen verwenden. Für additive Änderungen Standardwerte verwenden. Für Breaking Changes während der Migration Dual-Write implementieren. Tools: Confluent Schema Registry für Kafka, Delta Lake Schema-Evolution mit mergeSchema-Option. Immer Rückwärtskompatibilität vor dem Deployment testen.

Audit de sécurité

Risque faible
v1 • 2/24/2026

All static analyzer findings are false positives. The skill is documentation-only, providing architectural guidance and educational code examples. No executable code, external commands, or security risks detected. Safe for publication.

1
Fichiers analysés
204
Lignes analysées
3
résultats
1
Total des audits
Problèmes à risque faible (3)
Static Analyzer False Positives - Weak Cryptographic Algorithm
Static analyzer flagged lines 3, 28, 39, 42, 94, and 167 as containing weak cryptographic algorithms. Review confirms these are false positives - the flagged lines contain architectural terms (ETL/ELT, Lambda, Kappa) and documentation headers, not cryptographic code.
Static Analyzer False Positive - External Command Execution
Static analyzer flagged line 124 as Ruby/shell backtick execution. Review confirms this is a Python code example showing batch ingestion patterns, not shell command execution.
Static Analyzer False Positives - Reconnaissance Patterns
Static analyzer flagged lines 49, 116, and 184 as system/network reconnaissance. Review confirms these are data pipeline terminology (metadata tracking fields, partitioning strategies, monitoring alerts), not reconnaissance activity.
Audité par: claude

Score de qualité

38
Architecture
100
Maintenabilité
87
Contenu
50
Communauté
84
Sécurité
91
Conformité aux spécifications

Ce que vous pouvez construire

Greenfield-Pipeline-Architektur

Design einer vollständigen Daten-Pipeline von Grund auf für ein Startup, das von Tabellenkalkulationen zu einem modernen Data-Stack migriert.

Streaming-Migrationsstrategie

Umwandlung bestehender Batch-Pipelines in Echtzeit-Streaming-Architektur mit Kafka und Stream-Processing-Frameworks.

Implementierung des Datenqualitäts-Frameworks

Implementierung umfassender Datenqualitätsprüfungen mit Great Expectations und dbt-Tests sowie automatisierter Alarmierung.

Essayez ces prompts

Basic-Pipeline-Design
Ich muss eine Daten-Pipeline erstellen, die täglich Daten aus PostgreSQL extrahiert, transformiert und in ein Data Warehouse lädt. Welche Architektur sollte ich verwenden und welche sind die Hauptkomponenten?
Streaming-Architekturauswahl
Wir haben hochvolumige Ereignisdaten aus unserer Anwendung und benötigen Near-Real-Time-Analytics. Vergleich Sie Lambda- vs. Kappa-Architektur für unseren Anwendungsfall mit 1M Ereignissen pro Minute.
Datenqualitäts-Implementierung
Zeigen Sie mir, wie ich Datenqualitätsprüfungen für unsere Orders-Tabelle mit Great Expectations implementiere. Wir müssen die Eindeutigkeit der Order-IDs, nicht-null Customer-IDs und positive Order-Beträge validieren.
Kostenoptimierungs-Review
Unsere monatlichen Daten-Pipeline-Kosten haben sich verdoppelt. Überprüfen Sie unsere Architektur und geben Sie spezifische Empfehlungen zur Kostenreduzierung bei gleichzeitiger Einhaltung der SLA. Aktueller Stack: Airflow, Spark, S3, Redshift.

Bonnes pratiques

  • Bewerten Sie Datenquellen, Volumen, Latenzanforderungen und Zielsysteme vor der Auswahl von Architekturmustern
  • Implementieren Sie inkrementelle Verarbeitung mit Wassermark-Spalten, um die Neuverarbeitung vollständiger Datensätze zu vermeiden
  • Fügen Sie Datenqualitäts-Gates in jeder Pipeline-Stufe mit automatisierten Alerts bei Validierungsfehlern hinzu

Éviter

  • Kopieren von Produktionsmustern ohne Anpassung an spezifische Datenvolumen- und Durchsatzanforderungen
  • Architekturwahl basierend auf Trends statt auf Geschäftsanforderungen und Team-Fähigkeiten
  • Priorisierung von Funktionen vor Monitoring, Observability und operativen Runbooks

Foire aux questions

Sollte ich Lambda- oder Kappa-Architektur für Real-Time-Analytics verwenden?
Wählen Sie Lambda, wenn Sie sowohl Batch-Genauigkeit als auch Low-Latency-Views mit komplexen Aggregationen benötigen. Wählen Sie Kappa für einfachere reinen Stream-Processing, wobei die Replay-Fähigkeit ausreicht. Kappa reduziert die operative Komplexität, erfordert aber eine robuste Stream-Processing-Infrastruktur.
Wie gehe ich mit verspätet eintreffenden Daten in Streaming-Pipelines um?
Verwenden Sie Event-Time-Processing mit Watermarks, um Verspätungs-Schwellenwerte zu definieren. Implementieren Sie Side-Outputs für verspätete Daten, die neu verarbeitet werden können. Für kritische Daten warten Sie einen periodischen Batch-Korrektur-Job, der fehlende Datensätze korrigiert.
Welches Dateiformat sollte ich für Data-Lake-Speicher verwenden?
Verwenden Sie Parquet für spaltenbasierte Analytics-Workloads mit Komprimierung und Prädikat-Pushdown. Delta Lake oder Iceberg fügen ACID-Transaktionen, Schema-Evolution und Time Travel auf Parquet hinzu. Wählen Sie basierend auf Ihrem Bedarf an Transaktionen und Metadaten-Management.
Wann sollte ich dbt vs. Spark für Transformationen verwenden?
Verwenden Sie dbt für SQL-basierte Transformationen in Ihrem Data Warehouse mit integriertem Testing und Dokumentation. Verwenden Sie Spark für Large-Scale-Datenverarbeitung, komplexe Transformationen mit Python/Scala oder bei der Arbeit mit Data Lakes vor dem Laden in das Warehouse.
Wie erreiche ich Exactly-Once-Processing im Streaming?
Kombinieren Sie idempotente Sinks mit transaktionaler Verarbeitung. Verwenden Sie Kafka-Transaktionen für atomare Schreibvorgänge, Checkpoint-Status für Wiederherstellung und设计 idempotenter Operationen. Für Datenbanken verwenden Sie Upsert-Operationen mit Unique Constraints, um Duplikate zu vermeiden.
Welche Monitoring-Metriken sind für Daten-Pipelines essenziell?
Tracken Sie: verarbeitete und fehlgeschlagene Datensätze pro Phase, End-to-End-Latenz, Daten-Frische, Pipeline-Erfolgsrate und Ressourcenauslastung. Setzen Sie Alerts bei SLA-Verletzungen, Error-Rate-Spikes und Datenqualitätsausfällen. Überwachen Sie Trends, um Kapazitätsprobleme zu identifizieren, bevor sie Ausfälle verursachen.

Détails du développeur

Structure de fichiers

📄 SKILL.md