Fähigkeiten Data Engineer
📊

Data Engineer

Sicher

Datenpipelines und Data Warehouses entwickeln

Entwerfen und implementieren Sie skalierbare Datenpipelines, moderne Data Warehouses und Echtzeit-Streaming-Architekturen mit dem kompletten modernen Datenstack einschließlich Apache Spark, dbt und Airflow.

Unterstützt: Claude Codex Code(CC)
🥉 73 Bronze
1

Die Skill-ZIP herunterladen

2

In Claude hochladen

Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen

3

Einschalten und loslegen

Teste es

Verwendung von "Data Engineer". Design a modern data stack with dbt and Snowflake for a marketing analytics platform

Erwartetes Ergebnis:

Ein umfassendes Architektur-Dokument mit: 1) Datenflussdiagramm mit Fivetran für Ingestion, dbt für Transformation und Snowflake für Speicherung. 2) Star-Schema-Design mit Fakt- und Dimensionstabellen. 3) dbt-Models mit Source-, Staging- und Marts-Layern. 4) Datenqualitätstests für wichtige Metriken. 5) Empfehlungen zur Kostenoptimierung.

Verwendung von "Data Engineer". Build a streaming pipeline from Kafka to BigQuery

Erwartetes Ergebnis:

  • Architekturübersicht mit Kafka-Quelle, Flink-Verarbeitung und BigQuery-Sink
  • Kafka-Consumer-Konfiguration mit entsprechenden Parallelitätseinstellungen
  • Flink-Job-Code für Datentransformation und fensterbasierte Aggregationen
  • BigQuery-Schema-Design mit Partitionierungs- und Clustering-Keys
  • Monitoring-Setup mit Datadog oder Cloud Monitoring

Sicherheitsaudit

Sicher
v1 • 2/24/2026

This is a prompt-only skill containing only text instructions for a data engineering assistant. Static analysis scanned 0 files with 0 lines of code. No suspicious patterns, dangerous code patterns, or risk factors detected. The skill defines a data engineer persona with no executable code, network requests, or system access capabilities. Safe for marketplace publication.

0
Gescannte Dateien
0
Analysierte Zeilen
0
befunde
1
Gesamtzahl Audits
Keine Sicherheitsprobleme gefunden
Auditiert von: claude

Qualitätsbewertung

38
Architektur
100
Wartbarkeit
87
Inhalt
50
Community
100
Sicherheit
83
Spezifikationskonformität

Was du bauen kannst

Modernen Datenstack entwerfen

Erstellen Sie eine vollständige Datenplattform-Architektur mit Integration von Fivetran, dbt und Snowflake einschließlich ordnungsgemäßer Datenmodellierung und Testing.

Echtzeit-Streaming-Pipeline entwickeln

Entwerfen Sie eine skalierbare Streaming-Architektur, die Millionen von Ereignissen pro Sekunde von Kafka zu einem Data Warehouse verarbeitet.

Datenqualitäts-Framework implementieren

Etablieren Sie umfassende Datenqualitätsprüfungen, Monitoring und Alerting für zuverlässige Datenpipelines.

Probiere diese Prompts

Batch-Pipeline entwerfen
Design a batch data pipeline that ingests data from PostgreSQL to a Snowflake data warehouse using Apache Airflow. Include incremental loading patterns, data quality checks, and error handling.
Architektur-Review
Review my current data architecture and suggest improvements for cost optimization, performance, and scalability. My stack includes AWS S3, Redshift, and Glue.
Echtzeit-Pipeline-Design
Design a real-time streaming pipeline that processes 100K events per second from Kafka, applies transformations with Apache Flink, and writes to BigQuery for analytics.
Datenqualitäts-Framework
Create a data quality framework using Great Expectations that validates schema, checks for null values, and monitors data distributions across my ETL pipelines.

Bewährte Verfahren

  • Beginnen Sie mit klaren Datenverträgen und SLAs vor dem Pipeline-Bau
  • Implementieren Sie Datenqualitätsprüfungen auf jeder Pipeline-Stufe
  • Verwenden Sie Infrastructure as Code (Terraform) für reproduzierbare Deployments

Vermeiden

  • Entwicklung monolithischer Pipelines ohne modulare Transformationsstufen
  • Überspringen der Datenqualitätsvalidierung vor dem Production-Deployment
  • Ignorieren der Kostenauswirkungen bei der Auswahl von Cloud-Daten-Diensten

Häufig gestellte Fragen

Was ist der moderne Datenstack?
Der moderne Datenstack ist eine Sammlung von Cloud-nativen Tools für Datenintegration, Transformation und Analysen. Typischerweise umfasst er Fivetran oder Airbyte für Ingestion, dbt für Transformationen und Snowflake oder BigQuery für die Speicherung.
Wann sollte ich Batch- vs. Stream-Verarbeitung verwenden?
Verwenden Sie Batch-Verarbeitung für geplante ETL-Jobs, Reporting und wenn Near-Real-Time-Daten nicht erforderlich sind. Verwenden Sie Streaming für Echtzeit-Analysen, Betrugserkennung und Anwendungen, die sofortige Datenverfügbarkeit erfordern.
Was ist ein Data Lakehouse?
Ein Data Lakehouse kombiniert die Flexibilität eines Data Lake mit den Management-Features eines Data Warehouse. Es verwendet Formate wie Delta Lake oder Apache Iceberg, um ACID-Transaktionen auf Cloud-Object-Storage zu ermöglichen.
Wie stelle ich Datenqualität in Pipelines sicher?
Implementieren Sie Datenqualitätsprüfungen mit Great Expectations oder dbt-Tests auf jeder Pipeline-Stufe. Definieren Sie Validierungsregeln für Schema, Null-Werte, Eindeutigkeit und Geschäftslogik. Richten Sie Alerting für Qualitätsfehler ein.
Was ist Change Data Capture (CDC)?
CDC ist ein Muster, das Änderungen an Datenbankdaten identifiziert und erfasst. Es streamt diese Änderungen in Echtzeit zu Data Warehouses oder anderen Systemen und ermöglicht Near-Real-Time-Datensynchronisation.
Wie optimiere ich Data Warehouse-Kosten?
Verwenden Sie geeignete Datenpartitionierung und -clustering, implementieren Sie inkrementelles Laden, nutzen Sie materialisierte Views für häufige Abfragen und überwachen Sie die Abfrageleistung, um Optimierungsmöglichkeiten zu identifizieren.

Entwicklerdetails

Dateistruktur

📄 SKILL.md