data-engineering-data-pipeline
Skalierbare Daten-Pipelines erstellen
Das Design produktionsreifer Daten-Pipelines ist komplex und fehleranfällig. Dieser Skill bietet bewährte Architekturmuster und Implementierungsanleitungen für ETL-, Streaming- und Lakehouse-Systeme.
Télécharger le ZIP du skill
Importer dans Claude
Allez dans Paramètres → Capacités → Skills → Importer un skill
Activez et commencez à utiliser
Tester
Utilisation de "data-engineering-data-pipeline". Entwerfen Sie eine Batch-Pipeline für die tägliche Kundendaten-Synchronisation von MySQL nach Snowflake
Résultat attendu:
Architektur: ELT-Muster mit inkrementellem Laden. Komponenten: (1) Extraktion mit Wassermark-Spalte 'updated_at', (2) Laden der Rohdaten in S3-Staging, (3) Transformation in Snowflake mit dbt, (4) Validierung mit dbt-Tests, (5) Alert bei Fehlern via Slack. Wichtige Überlegungen: Umgang mit verspätet eintreffenden Daten, Implementierung von Retry-Logik, Überwachung der Zeilenanzahl-Varianz.
Utilisation de "data-engineering-data-pipeline". Wie gehe ich mit Schema-Evolution in einer Streaming-Pipeline um?
Résultat attendu:
Strategie: Schema-Registry mit Kompatibilitätsprüfungen verwenden. Für additive Änderungen Standardwerte verwenden. Für Breaking Changes während der Migration Dual-Write implementieren. Tools: Confluent Schema Registry für Kafka, Delta Lake Schema-Evolution mit mergeSchema-Option. Immer Rückwärtskompatibilität vor dem Deployment testen.
Audit de sécurité
Risque faibleAll static analyzer findings are false positives. The skill is documentation-only, providing architectural guidance and educational code examples. No executable code, external commands, or security risks detected. Safe for publication.
Problèmes à risque faible (3)
Score de qualité
Ce que vous pouvez construire
Greenfield-Pipeline-Architektur
Design einer vollständigen Daten-Pipeline von Grund auf für ein Startup, das von Tabellenkalkulationen zu einem modernen Data-Stack migriert.
Streaming-Migrationsstrategie
Umwandlung bestehender Batch-Pipelines in Echtzeit-Streaming-Architektur mit Kafka und Stream-Processing-Frameworks.
Implementierung des Datenqualitäts-Frameworks
Implementierung umfassender Datenqualitätsprüfungen mit Great Expectations und dbt-Tests sowie automatisierter Alarmierung.
Essayez ces prompts
Ich muss eine Daten-Pipeline erstellen, die täglich Daten aus PostgreSQL extrahiert, transformiert und in ein Data Warehouse lädt. Welche Architektur sollte ich verwenden und welche sind die Hauptkomponenten?
Wir haben hochvolumige Ereignisdaten aus unserer Anwendung und benötigen Near-Real-Time-Analytics. Vergleich Sie Lambda- vs. Kappa-Architektur für unseren Anwendungsfall mit 1M Ereignissen pro Minute.
Zeigen Sie mir, wie ich Datenqualitätsprüfungen für unsere Orders-Tabelle mit Great Expectations implementiere. Wir müssen die Eindeutigkeit der Order-IDs, nicht-null Customer-IDs und positive Order-Beträge validieren.
Unsere monatlichen Daten-Pipeline-Kosten haben sich verdoppelt. Überprüfen Sie unsere Architektur und geben Sie spezifische Empfehlungen zur Kostenreduzierung bei gleichzeitiger Einhaltung der SLA. Aktueller Stack: Airflow, Spark, S3, Redshift.
Bonnes pratiques
- Bewerten Sie Datenquellen, Volumen, Latenzanforderungen und Zielsysteme vor der Auswahl von Architekturmustern
- Implementieren Sie inkrementelle Verarbeitung mit Wassermark-Spalten, um die Neuverarbeitung vollständiger Datensätze zu vermeiden
- Fügen Sie Datenqualitäts-Gates in jeder Pipeline-Stufe mit automatisierten Alerts bei Validierungsfehlern hinzu
Éviter
- Kopieren von Produktionsmustern ohne Anpassung an spezifische Datenvolumen- und Durchsatzanforderungen
- Architekturwahl basierend auf Trends statt auf Geschäftsanforderungen und Team-Fähigkeiten
- Priorisierung von Funktionen vor Monitoring, Observability und operativen Runbooks