我必须运行spark作业,在这个spark作业中,我们必须传递date作为参数来读取当前目录。我用气流来安排工作。下面是一些信息
开始日期
import pendulum
local_tz = pendulum.timezone("Asia/Kolkata")
start_date': datetime(year=2020, month=8, day=3,tzinfo=local_tz)
计划\u间隔
schedule_interval='20 0 * * *'
传入作业的值
{{ (execution_date + macros.timedelta(hours=5,minutes=30) - macros.timedelta(days=1)).strftime("%Y/%m/%d") }}
我们必须在前一天午夜运行此作业,但此表达式表示我前天的日期。我加了5:30,因为我们的气流使用utc时间。
有人能解释一下这里发生了什么吗?
谢谢
1条答案
按热度按时间khbbv19g1#
以下是执行日期的定义
取自https://towardsdatascience.com/apache-airflow-tips-and-best-practices-ff64ce92ef8#:~:text=202019%e2%80%9312%e2%80%9306上的%20execution%20time%20in%20airflow。
值中不需要宏.timedelta(days=1)).strftime(“%y/%m/%d”)