Question 1

リアルタイム分析にLambdaアーキテクチャとKappaアーキテクチャのどちらを使用すべきですか？

Accepted Answer

複雑な集計を行うバッチの正確性と低レイテンシのビューの両方が必要な場合はLambdaを選択してください。リプレイ機能で十分な、より単純なストリームのみの処理の場合はKappaを選択してください。Kappaは運用の複雑さを軽減できますが、堅牢なストリーミング処理インフラストラクチャが必要です。

Question 2

ストリーミングパイプラインで遅れて到着するデータをどのように処理しますか？

Accepted Answer

遅延のしきい値を定義するために、ウォーターマークを使用したイベント時間処理を使用してください。再処理可能な遅延データ用にサイド出力を実装します。重要なデータの場合、見逃したレコードを修正するために定期的に実行されるバッチ修正ジョブを維持してください。

Question 3

データレイクストレージにどのファイル形式を使用すべきですか？

Accepted Answer

圧縮と述語プッシュダウンを持つ列指向分析ワークロードにはParquetを使用してください。Delta LakeまたはIcebergは、Parquetの上にACIDトランザクション、スキーマ進化、タイムトラベルを追加します。トランザクションとメタデータ管理の必要性に基づいて選択してください。

Question 4

変換にdbtとSparkのどちらを使用すべきですか？

Accepted Answer

データウェアハウスでSQLベースの変換を行うには、組み込みのテストとドキュメントメントを備えたdbtを使用してください。大規模なデータ処理、Python/Scalaを必要とする複雑な変換、またはウェアハウスにロードする前にデータレイクで作業する場合にはSparkを使用してください。

Question 5

ストリーミングで正確に1回の処理をどのように実現しますか？

Accepted Answer

べき等シンクとトランザクション処理を組み合わせてください。アトミックライトにはKafkaトランザクションを使用し、復旧にはチェックポイント状態を使用し、べき等操作を設計してください。データベースの場合は、重複を防ぐために一意制約付きのアップサート操作を使用してください。

Question 6

データパイプラインに不可欠な監視メトリクスは何ですか？

Accepted Answer

追跡項目：ステージごとの処理済みおよび失敗したレコード、エンドツーエンドのレイテンシ、データの鮮度、パイプライン成功率、リソース利用率。SLA違反、エラーレートの急増、データ品質の失敗に対してアラートを設定。障害が発生する前に容量問題を特定するためにトレンドを監視。

data-engineering-data-pipeline

テストする