在Map器中随机分布记录

7kqas0il  于 2021-06-26  发布在  Hive
关注(0)|答案(1)|浏览(290)

我在找这样的东西 DISTRIBUTE BY 而是Map器而不是还原器。
我有一个正在运行和使用的仅Map转换作业

SET mapred.min.split.size=2100000;
SET mapred.max.split.size=2100000;

控制分配的Map器数量。总的分区大小约为800mb,并且该作业确实分配了大约400个Map器,这似乎与拆分大小一致。我遇到的问题是,约390个Map器在<1m内完成,并显示处理了0条记录。剩下的10名Map绘制人员完成了整个工作,需要几天才能完成。
有没有办法,我可以强迫Map者采取(大约)相等数量的记录,这样就不会发生这种情况?

syqv5f0l

syqv5f0l1#

固定的。显然,从中查询的表在hdfs中只有10个文件,因此只能使用10个Map器。

相关问题