如何使用tez更改带有orc文件的Map器的数量?

6za6bjd0  于 2021-05-27  发布在  Hadoop
关注(0)|答案(1)|浏览(600)

我正在努力增加Map任务的数量。文件格式为orc,使用tez进行处理。
我有一个2.8 gb的文件。大约128 mb文件,文件数约为29。
每次我执行28个map任务都会被执行。我正在尝试增加Map任务计数。
提前谢谢

yyyllmsg

yyyllmsg1#

检查这些设置(请参阅下面的注解):

set hive.tez.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;

set tez.grouping.min-size=16777216; -- files with smaller size will be combined if possible
set tez.grouping.max-size=67108864; -- (default is 1 Gb), files with bigger size will be splitted and more mappers started

您还可以使用此设置控制Map器的数量:

set mapreduce.job.maps=128; --better use grouping splits configuration (above) instead of this one because it is more flexible

相关问题