跨工作节点分发collect\u list函数

apeeds0o  于 2021-05-24  发布在  Spark
关注(0)|答案(1)|浏览(410)

我正在pyspark中使用以下代码执行聚合数组收集:

df1=df.groupBy('key').agg(collect_list('value'))

我知道一些函数,比如把数据收集到一个节点上。有没有可能在利用分布式云计算能力的同时实现同样的结果?

eqqqjvef

eqqqjvef1#

这里似乎有点误会 collect 强制通过驱动程序收集数据,而不是分发数据
鉴于 collect_list 以及 collect_set 默认情况下是分布式操作。

相关问题