如何使用tez更改带有orc文件的Map器的数量？

6za6bjd0 于 2021-05-27 发布在 Hadoop

关注(0)|答案(1)|浏览(600)

我正在努力增加Map任务的数量。文件格式为orc，使用tez进行处理。
我有一个2.8 gb的文件。大约128 mb文件，文件数约为29。
每次我执行28个map任务都会被执行。我正在尝试增加Map任务计数。
提前谢谢

hadoop apache-tez orc

来源：https://stackoverflow.com/questions/58494740/how-to-change-number-of-mapper-with-orc-files-using-tez

1条答案

按热度按时间

yyyllmsg1#

检查这些设置（请参阅下面的注解）：

set hive.tez.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;

set tez.grouping.min-size=16777216; -- files with smaller size will be combined if possible
set tez.grouping.max-size=67108864; -- (default is 1 Gb), files with bigger size will be splitted and more mappers started

您还可以使用此设置控制Map器的数量：

set mapreduce.job.maps=128; --better use grouping splits configuration (above) instead of this one because it is more flexible

赞(0）回复(0）举报 2021-05-27

我来回答

如何使用tez更改带有orc文件的Map器的数量？

1条答案

相关问题

热门标签

最新问答