在配置单元中的sort by语句中决定缩减器的数目?

dba5bblo  于 2021-06-03  发布在  Hadoop
关注(0)|答案(0)|浏览(199)

在执行排序时,我们是否可以控制哪些数据可以发送到减速机-例如。如果您有一个包含10个状态(以及每个状态下的数据)的数据,并且您将reducer设置为6,然后您在states列中执行sort by,那么我们将无法获得所需的结果,因为我们需要10个不同的文件作为输出,其中包含按状态排序的数据。所以总的数据分为10个文件,每个文件有10个状态的数据进行排序。我的理解正确吗?我知道分区可以将数据分成10种不同的状态,然后放到单独的目录中,但是它不会被排序,因此我们使用sort by。如果我错了,请纠正我。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题