data-engineering-data-pipeline
スケーラブルなデータパイプラインを構築
本番環境向けデータパイプラインの設計は複雑でエラーが発生しやすいものです。このスキルでは、ETL、ストリーミング、レイクハウスシステムに対する実証済みのアーキテクチャパターンと実装ガイダンスを提供します。
Télécharger le ZIP du skill
Importer dans Claude
Allez dans Paramètres → Capacités → Skills → Importer un skill
Activez et commencez à utiliser
Tester
Utilisation de "data-engineering-data-pipeline". MySQLからSnowflakeへの日次顧客データ同期用のバッチパイプラインを設計
Résultat attendu:
アーキテクチャ:増分ロードを使用するELTパターン。コンポーネント:(1) ウォーターマークカラム'updated_at'を使用して抽出、(2) S3ステージングに生データをロード、(3) dbtでSnowflake内で変換、(4) dbtテストで検証、(5) Slack経由で障害時にアラート。主な考慮事項:遅れて到着するデータの処理、再試行ロジックの実装、行数の変動の監視。
Utilisation de "data-engineering-data-pipeline". ストリーミングパイプラインでスキーマ進化をどのように処理しますか?
Résultat attendu:
ストラテジー:互換性チェック付きのスキーマレジストリを使用。追加変更の場合はデフォルト値を使用。破壊的変更の場合は、移行中にデュアルライトを実装。ツール:Kafka用のConfluent Schema Registry、mergeSchemaオプションを使用したDelta Lakeスキーマ進化。デプロイ前に常に後方互換性をテスト。
Audit de sécurité
Risque faibleAll static analyzer findings are false positives. The skill is documentation-only, providing architectural guidance and educational code examples. No executable code, external commands, or security risks detected. Safe for publication.
Problèmes à risque faible (3)
Score de qualité
Ce que vous pouvez construire
新規パイプ��インアーキテクチャの設計
スプレッドシートからモダンなデータスタックへ移行するスタートアップ向けに、ゼロから完全なデータパイプラインを設計します。
ストリーミング移行ストラテジー
Kafkaとストリーミング処理フレームワークを使用して、既存のバッチパイプラインをリアルタイムストリーミングアーキテクチャに変換します。
データ品質フレームワークの実装
Great Expectationsとdbtテストを使用して、自動アラート機能付きの包括的なデータ品質チェックを実装します。
Essayez ces prompts
PostgreSQLから毎日データを抽出し、変換して、データウェアハウスにロードするデータパイプラインを構築する必要があります。どのアーキテクチャを使用すべきで、主要なコンポーネントは何ですか?
アプリケーションから大量のイベントデータが生成されており、ほぼリアルタイムの分析が必要です。1分間に100万イベントのユースケースで、LambdaアーキテクチャとKappaアーキテクチャを比較してください。
Great Expectationsを使用してオーダーテーブルのデータ品質チェックを実装する方法を教えてください。オーダーIDの一意性、顧客IDの非NULL、正のオーダー金額を検証する必要がありま��。
月次のデータパイプラインコストが2倍になりました。アーキテクチャをレビューし、SLAを維持しながらコストを削減する具体的な推奨事項を提供してください。現在のスタック:Airflow、Spark、S3、Redshift。
Bonnes pratiques
- アーキテクチャパターンを選択する前に、データソース、データ量、レイテンシ要件、ターゲットシステムを評価
- データセット全体を再処理しないように、ウォーターマークカラムを使用した増分処理を実装
- 各パイプラインステージでデータ品質ゲートを追加し、検証失敗時に自動アラートを設定
Éviter
- 特定のデータ量と速度要件に適合させずに本番環境のパターンをコピー
- ビジネスニーズとチームの能力ではなくトレンドに基づいてアーキテクチャを選択
- 監視、可観測性、運用手順より機能を優先