Question 1

在部署到生產環境之前，我該如何測試我的 DAG？

Accepted Answer

使用 DagBag 類別在單元測試中載入和驗證 DAG。使用 pytest 分別測試個別任務函式。在本地 Airflow 執行個體中以 catchup=False 執行 DAG 以驗證執行流程。

Question 2

運算子和感測器之間有什麼區別？

Accepted Answer

運算子執行動作，如執行 Python 程式碼或查詢。感測器是特殊的運算子，會等待外部條件，如檔案可用性、API 回應或其他 DAG 完成後才繼續執行。

Question 3

我如何在 Airflow 的任務之間傳遞資料？

Accepted Answer

對於小型資料，透過從任務函式回傳值來使用 XCom。TaskFlow API 會自動處理 XCom。對於大型資料，將其儲存在外部儲存空間如 S3，並在任務之間傳遞參考。

Question 4

為什麼我的任務在失敗後沒有重試？

Accepted Answer

確保在 default_args 或個別任務定義中設定 retries 和 retry_delay。檢查任務是否未在排程階段失敗。驗證 retry_exponential_backoff 以確保延遲遞增。

Question 5

我該如何處理 DAG 對其他 DAG 的依賴？

Accepted Answer

使用 ExternalTaskSensor 等待上游 DAG 中的特定任務完成。設定 execution_date_fn 以在相依 DAG 之間比對正確的執行日期。

Question 6

我應該為清理任務使用什麼觸發規則？

Accepted Answer

對於無論上游成功或失敗都必須執行的清理任務，使用 TriggerRule.ALL_DONE。對於僅在所有上游任務成功後才應執行的任務，使用 TriggerRule.ALL_SUCCESS。

airflow-dag-patterns

測試它