如何强制withcolumn按时间顺序逐行工作?

bmp9r5qi  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(417)

我的算法依赖于到达数据的顺序,它反映在Dataframe行的顺序上。
第0行-t|U 0 |第1行-t|U 1 |…|第n-t\n行
我的代码:

df_res=df.withColumn('algo_res',temporalAlgo_UDF(F.col('value')))

如何强制执行器逐行应用算法(没有并行性)?
谢谢,

jgzswidk

jgzswidk1#

你可以试试 df.coalesce(1).withColumn... 根据文件:
但是,如果您正在执行一个剧烈的合并,例如to numpartitions=1,这可能会导致您的计算发生在比您希望的更少的节点上
(例如,在numpartitions=1的情况下为一个节点)。

相关问题