apachespark:由groupbykey在dataset上生成的组必须位于worker中?

vecaoik1  于 2021-05-29  发布在  Spark
关注(0)|答案(0)|浏览(305)

我使用的是spark数据集,然后我想创建组,并将每个组写入通常本地文件系统中的每个文件中。所以我尝试使用dataset的groupbykey并生成keyvaluegroupeddataset,然后使用mapgroups(或flatmapgroups)来实现这一点。
作为我的代码在本地模式下的一种行为,看起来没有问题,但是我的方法是基于这样一种假设,即组必须位于类似于机器的分区上。如果一个组位于多台机器上,我的方法必须被打破。
我想保证一个组总是位于一台机器上,即使一个组的数量相当大。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题