Spark：如何分解位于1个特定执行器上的数据？

mwngjboj 于 2023-08-06 发布在 Apache

关注(0)|答案(1)|浏览(126)

我有一个很大的数据集，它主要在一个执行器上被shuffle读取：https://i.stack.imgur.com/tpi7K.png
我已经实现了所有以前的操作，直到最后一个：写入磁盘。
到目前为止，我已经尝试了各种数量的df.repartition(n)，但我无法分解这个执行器上的数亿行。
我认为sampleBy是罪魁祸首--我想均匀地对目标类的值进行采样，但分布严重不平衡。如何在采样后打破分区？

apache-spark

来源：https://stackoverflow.com/questions/76608662/spark-how-do-i-break-up-the-data-located-on-1-particular-executor