我已经创建了一个图表来表示mapreduce框架是如何工作的。有人能证实这是一个准确的表述吗?p、 在本例中,我们还对图中所示的系统组件感兴趣。
rqdpfwrv1#
jobtracker、tasktracker和masternode在hadoop2+w/yarn中不是真实的东西。作业提交给resourcemanager,后者在其中一个NodeManager上创建applicationmaster。“从属节点”通常也是您的数据节点,因为它是hadoop的核心租户—将处理移到数据上。“receive the data”箭头是双向的,从namenode到datanode没有箭头。1) 从namenode获取文件位置,然后将位置发送回客户端。2) 客户机(即在datanode或“从属节点”上运行的nodemanager进程)将直接从datanode本身读取数据-datanode不直接知道其他从属节点存在于何处。这就是说,hdfs和Yarn通常都是同一个“泡泡”的一部分,所以你的“hdfs”标签圈应该围绕着所有东西。
dzhpxtsq2#
mapreduce体系结构在执行作业的不同阶段工作。以下是运行mapreduce应用程序的不同阶段-第一阶段涉及用户将数据写入hdfs以进行进一步处理。这些数据以块的形式存储在hdfs中的不同节点上。现在客户机提交其mapreduce作业。然后,资源管理器启动一个容器来启动appmaster。应用程序主机向资源管理器发送资源请求。资源管理器现在通过节点管理器在从属服务器上分配容器。appmaster启动容器中的相应任务。作业现在已在容器中执行。处理完成后,资源管理器将释放资源。来源:cloudera
2条答案
按热度按时间rqdpfwrv1#
jobtracker、tasktracker和masternode在hadoop2+w/yarn中不是真实的东西。作业提交给resourcemanager,后者在其中一个NodeManager上创建applicationmaster。
“从属节点”通常也是您的数据节点,因为它是hadoop的核心租户—将处理移到数据上。
“receive the data”箭头是双向的,从namenode到datanode没有箭头。1) 从namenode获取文件位置,然后将位置发送回客户端。2) 客户机(即在datanode或“从属节点”上运行的nodemanager进程)将直接从datanode本身读取数据-datanode不直接知道其他从属节点存在于何处。
这就是说,hdfs和Yarn通常都是同一个“泡泡”的一部分,所以你的“hdfs”标签圈应该围绕着所有东西。
dzhpxtsq2#
mapreduce体系结构在执行作业的不同阶段工作。以下是运行mapreduce应用程序的不同阶段-
第一阶段涉及用户将数据写入hdfs以进行进一步处理。这些数据以块的形式存储在hdfs中的不同节点上。
现在客户机提交其mapreduce作业。
然后,资源管理器启动一个容器来启动appmaster。
应用程序主机向资源管理器发送资源请求。
资源管理器现在通过节点管理器在从属服务器上分配容器。
appmaster启动容器中的相应任务。
作业现在已在容器中执行。
处理完成后,资源管理器将释放资源。
来源:cloudera