MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题.
MR由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单。
这两个函数的形参是key、value对,表示函数的输入信息。
2.reduce任务处理
2.1 在reduce之前,有一个shuffle的过程对多个map任务的输出进行合并、排序。
2.2写reduce函数自己的逻辑,对输入的key、value处理,转换成新的key、value输出。
2.3 把reduce的输出保存到文件中。
jobClient:提交作业;
JobTracker:初始化作业,分配作业,TaskTracker与其进行通信,协调监控整个作业;
TaskTracker:定期与JobTracker通信,执行Map和Reduce任务;
HDFS:保存作业的数据、配置、jar包、结果;
TaskTracker与JobTracker之间的通信和任务分配是通过心跳机制实现的
TaskTracker会主动定期向JobTracker发送心态信息,询问是否有任务要做,如果有,就会申请到任务。
1.如果TaskTracker拿到任务,会将所有的信息拷贝到本地,包括代码、配置、分片信息等;
2.TaskTracker中的localizeJob()方法会被调用进行本地化,拷贝job.jar,jobconf,job.xml到本地;
3.TaskTracker调用launchTaskForJob()方法加载启动任务;
4.MapTaskRunner和ReduceTaskRunner分别启动java child进程来执行相应的任务;
1.Task会定期向TaskTraker汇报执行情况;
2.TaskTracker会定期收集所在集群上的所有Task的信息,并向JobTracker汇报;
3.JobTracker会根据所有TaskTracker汇报上来的信息进行汇总;
JobTracker失败
存在单点故障,hadoop2.0解决了这个问题;
TraskTracker失败
TraskTracker崩溃了会停止向JobTracker发送心跳信息;
JobTracker会将TraskTracker从等待的任务池中移除,并将该任务转移到其他的地方执行;
JobTracker将TaskTracker加入到黑名单中;
Task失败
任务失败,会向TraskTracker抛出异常;
任务挂起;
负责接收用户提交的作业,负责启动、跟踪任务执行。
JobSubmissionProtocol是JobClient与JobTracker通信的接口。
InterTrackerProtocol是TaskTracker与JobTracker通信的接口。
负责执行任务
是用户作业与JobTracker交互的主要接口。
负责提交作业的,负责启动、跟踪任务执行、访问任务状态和日志等。
版权说明 : 本文为转载文章, 版权归原作者所有 版权申明
原文链接 : https://marco.blog.csdn.net/article/details/81183551
内容来源于网络,如有侵权,请联系作者删除!