spark/koalas实现pandas重采样('d')方法

jw5wzhpr 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(1020)

我有一个spark数据框需要填充。Dataframe的大小很大（>1亿行）。我能够达到我想要的使用Pandas如下所示。

new_df = df_pd.set_index('someDateColumn') \
              .groupby(['Column1', 'Column2', 'Column3']) \
              .resample('D') \
              .ffill() \
              .reset_index(['Column1', 'Column2', 'Column3'], drop=True) \
              .reset_index()

我试的时候卡住了 .resample('D') 使用考拉。在spark本机函数中有没有更好的替代方法来执行ffill复制逻辑？原因是，我想避免pandas，因为它不是分布式的，只在驱动程序节点上执行。
如何使用spark/koalas包实现上述功能？

python apache-spark pyspark databricks spark-koalas

来源：https://stackoverflow.com/questions/63237579/spark-koalas-implementation-of-pandas-resampled-method