我正在创建一个python脚本,它应该定期自动执行。由于它使用日历Dataframe,因此此日历必须自动更新自身。
因此,我想创建一个包含 YearMonth
-输入一个特定的开始日期和今天(不包括今天的月份)。选择开始日期2015-01-01,当前日期为2020-09-08,应如下所示:
--------------
YearMonth
--------------
201501
201502
201503
201504
201505
(...)
202006
202007
202008
---------------
如何实现这一点,以便每次执行脚本时,它都以最后一个完成的月份作为结束日期输出Dataframe?
编辑:当我设法从yyyy-mm-dd日期字段中提取yyyymm键时,还可以得到一个Dataframe,其中所有日期都在开始日期和今天之间。在这种情况下,可以在以后执行提取和删除重复项。
1条答案
按热度按时间jc3wubiy1#
scala代码
你可以做以下事情
输出:
您可以并行化日期并创建df,如下所示
参考文献:
https://docs.scala-lang.org/tutorials/faq/finding-symbols.html
scala:在apachesparkDataframe中获取过去24个月的每一个组合concatenate列