有人问过我。。如果有10个节点和1gb的表需要在hive中处理。那么使用了多少个Map器呢?
mftmpeh81#
如何确定Map器的数量?相对而言,确定Map器的数量相对容易,但与还原器的数量相比,控制Map器的数量则更难。Map器的数量可以如下确定:首先确定输入文件是否可拆分。gzip文件和其他一些压缩文件本来就不能被hadoop拆分。普通文本文件、json文档等都是可拆分的。如果文件可拆分:计算输入文件的总大小。Map器的数量=上面计算的总大小/输入hadoop配置中定义的拆分大小。例如,如果输入的总大小为1gb,并且输入拆分大小设置为128 mb,则:number of mappers=1 x 1024/128=8 mappers。如果文件不可拆分:在这种情况下,Map器的数量等于输入文件的数量。此外,文件格式也发挥了作用。
1条答案
按热度按时间mftmpeh81#
如何确定Map器的数量?
相对而言,确定Map器的数量相对容易,但与还原器的数量相比,控制Map器的数量则更难。Map器的数量可以如下确定:首先确定输入文件是否可拆分。gzip文件和其他一些压缩文件本来就不能被hadoop拆分。普通文本文件、json文档等都是可拆分的。
如果文件可拆分:
计算输入文件的总大小。
Map器的数量=上面计算的总大小/输入hadoop配置中定义的拆分大小。例如,如果输入的总大小为1gb,并且输入拆分大小设置为128 mb,则:number of mappers=1 x 1024/128=8 mappers。
如果文件不可拆分:
在这种情况下,Map器的数量等于输入文件的数量。
此外,文件格式也发挥了作用。