我有一个spark数据框需要填充。Dataframe的大小很大(>1亿行)。我能够达到我想要的使用Pandas如下所示。
new_df = df_pd.set_index('someDateColumn') \
.groupby(['Column1', 'Column2', 'Column3']) \
.resample('D') \
.ffill() \
.reset_index(['Column1', 'Column2', 'Column3'], drop=True) \
.reset_index()
我试的时候卡住了 .resample('D')
使用考拉。在spark本机函数中有没有更好的替代方法来执行ffill复制逻辑?原因是,我想避免pandas,因为它不是分布式的,只在驱动程序节点上执行。
如何使用spark/koalas包实现上述功能?
1条答案
按热度按时间snz8szmq1#
如果你正在寻找向前填补Spark,遵循本教程,以满足这一点-这里