我使用的是spark数据集,然后我想创建组,并将每个组写入通常本地文件系统中的每个文件中。所以我尝试使用dataset的groupbykey并生成keyvaluegroupeddataset,然后使用mapgroups(或flatmapgroups)来实现这一点。作为我的代码在本地模式下的一种行为,看起来没有问题,但是我的方法是基于这样一种假设,即组必须位于类似于机器的分区上。如果一个组位于多台机器上,我的方法必须被打破。我想保证一个组总是位于一台机器上,即使一个组的数量相当大。
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!