我对Pypark比较陌生。我想生成一个日期介于两个给定日期(常量)之间的dataframe列,并将此列添加到现有的dataframe中。有效的方法是什么?
我试过了,但没用:
df_add_column = df.withColumn("repeat", expr("split(repeat(',', diffDays), ',')")).select("*", posexplode("repeat").alias('DATE', "val")) .drop("repeat", "val", "diffDays").withColumn('DATE', expr("date_add('2018-01-01', 'DATE')"))
1条答案
按热度按时间dgjrabp21#
你可以用
sequence
函数生成日期,然后爆炸。例子: