hadoopMap操作如何管理hdfs集群上的数据冗余?

gpnt7bae  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(358)

由于hadoop在hdfs上运行,并且为了冗余而在hdfs集群上复制数据,hadoopMap操作在集群中的不同节点上的相同数据点上运行Map器是否真的浪费了大量的处理器周期(因为根据设计,节点之间有一些数据重叠(根据复制级别)。
或者它首先,根据某种作业管理策略,只处理部分节点,以某种非常聪明的方式避免这种重复计算?

9lowa7mx

9lowa7mx1#

每个Map器都有一个单独的inputsplit进行处理。因此,如果您有100个inputspits,那么框架将生成100个Map器。然后,每个Map程序都将检查它是否拥有所需的所有数据-如果没有,它将下载所有需要的数据并开始计算。一个inputsplit永远不会分配两次。

相关问题