我有一个指定的气流冲击,如上图所示。git_pull_datagenerator_batch_2
应该被TimeDeltaSensor wait_an_hour
延迟。
但是,任务git_pull_datagenerator
似乎也被延迟,尽管它不依赖于wait_an_hour
。 (整个活动计划在2019-12-10T20:00:00进行,但是git_pull_datagenerator的启动时间要晚一小时)
我检查了所有气流文件,但找不到任何线索。
我假设您的计划间隔是每小时?如果DAG运行时间为2019-12-10T20:00:00
,且间隔为@hourly
,则预计在第20小时“完成”时,将在2019-12-10T21:00:00
或之后不久运行。我认为这与传感器无关。
这是common Airflow pitfall:
气流被开发为满足ETL需求的解决方案。在ETL世界中,
您通常会汇总数据。所以,如果我想总结数据
2016年2月19日,我会在格林尼治标准时间2016年2月20日这样做,
立即获得2016-02-19的所有数据。
如果这是正在发生的情况,则wait_an_hour
从2019-12-10T21:00:00
开始,而git_pull_datagenerator_batch_2
从2019-12-10T22:00:00
开始。
事实证明,默认执行程序是SequentialExecutor,它使所有任务以线性顺序运行。