由于hadoop在hdfs上运行,并且为了冗余而在hdfs集群上复制数据,hadoopMap操作在集群中的不同节点上的相同数据点上运行Map器是否真的浪费了大量的处理器周期(因为根据设计,节点之间有一些数据重叠(根据复制级别)。或者它首先,根据某种作业管理策略,只处理部分节点,以某种非常聪明的方式避免这种重复计算?
9lowa7mx1#
每个Map器都有一个单独的inputsplit进行处理。因此,如果您有100个inputspits,那么框架将生成100个Map器。然后,每个Map程序都将检查它是否拥有所需的所有数据-如果没有,它将下载所有需要的数据并开始计算。一个inputsplit永远不会分配两次。
1条答案
按热度按时间9lowa7mx1#
每个Map器都有一个单独的inputsplit进行处理。因此,如果您有100个inputspits,那么框架将生成100个Map器。然后,每个Map程序都将检查它是否拥有所需的所有数据-如果没有,它将下载所有需要的数据并开始计算。一个inputsplit永远不会分配两次。