Question 1

モダンデータスタックとは何ですか？

Accepted Answer

モダンデータスタックは、データ統合、変換、アナリティクスのためのクラウドネイティブツールの集合です。通常、取り込みには Fivetran または Airbyte、変換には dbt、ストレージには Snowflake または BigQuery が含まれます。

Question 2

バッチ処理とストリーミング処理の使い分けは？

Accepted Answer

スケジュールされた ETL ジョブ、レポート、ほぼリアルタイムのデータが不要な場合にはバッチ処理を使用します。リアルタイムアナリティクス、不正検出、即時のデータ利用可能性を必要とするアプリケーションにはストリーミングを使用します。

Question 3

データレイクハウスとは何ですか？

Accepted Answer

データレイクハウスは、データレイクの柔軟性とデータウェアハウスの管理機能を組み合わせたものです。Delta Lake や Apache Iceberg などのフォーマットを使用して、クラウドオブジェクトストレージ上で ACID トランザクションを提供します。

Question 4

パイプラインでデータ品質を確保するには？

Accepted Answer

各パイプラインステージで Great Expectations または dbt テストを使用したデータ品質チェックを実装します。スキーマ、ヌル値、一意性、ビジネスロジックの検証ルールを定義します。品質失敗時のアラートを設定します。

Question 5

変更データキャプチャ（CDC）とは何ですか？

Accepted Answer

CDC は、データベースデータに対する変更を識別してキャプチャするパターンです。これらの変更をリアルタイムでデータウェアハウスや他のシステムにストリーミングし、ほぼリアルタイムのデータ同期を可能にします。

Question 6

データウェアハウスのコストを最適化するには？

Accepted Answer

適切なデータパーティショニングとクラスタリングを使用し、増分ロードを実装し、一般的なクエリにはマテリアライズドビューを活用し、最適化の機会を特定するためにクエリパフォーマンスをモニタリングします。

Data Engineer

テストする