spark/koalas实现pandas重采样('d')方法

jw5wzhpr  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(1020)

我有一个spark数据框需要填充。Dataframe的大小很大(>1亿行)。我能够达到我想要的使用Pandas如下所示。

new_df = df_pd.set_index('someDateColumn') \
              .groupby(['Column1', 'Column2', 'Column3']) \
              .resample('D') \
              .ffill() \
              .reset_index(['Column1', 'Column2', 'Column3'], drop=True) \
              .reset_index()

我试的时候卡住了 .resample('D') 使用考拉。在spark本机函数中有没有更好的替代方法来执行ffill复制逻辑?原因是,我想避免pandas,因为它不是分布式的,只在驱动程序节点上执行。
如何使用spark/koalas包实现上述功能?

snz8szmq

snz8szmq1#

如果你正在寻找向前填补Spark,遵循本教程,以满足这一点-这里

相关问题