配置单元中使用了多少Map器来处理1gb的表

ymdaylpp  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(490)

有人问过我。。
如果有10个节点和1gb的表需要在hive中处理。那么使用了多少个Map器呢?

mftmpeh8

mftmpeh81#

如何确定Map器的数量?
相对而言,确定Map器的数量相对容易,但与还原器的数量相比,控制Map器的数量则更难。Map器的数量可以如下确定:首先确定输入文件是否可拆分。gzip文件和其他一些压缩文件本来就不能被hadoop拆分。普通文本文件、json文档等都是可拆分的。
如果文件可拆分:
计算输入文件的总大小。
Map器的数量=上面计算的总大小/输入hadoop配置中定义的拆分大小。例如,如果输入的总大小为1gb,并且输入拆分大小设置为128 mb,则:number of mappers=1 x 1024/128=8 mappers。
如果文件不可拆分:
在这种情况下,Map器的数量等于输入文件的数量。
此外,文件格式也发挥了作用。

相关问题