如何在mapreduce处理中使用ram?

ehxuflar  于 2021-06-02  发布在  Hadoop
关注(0)|答案(3)|浏览(352)

需要澄清处理方面的问题,比如守护进程(namenode、datanode、jobttracker、task tracker)这些都位于一个集群中(单节点集群-它们分布在硬盘中)。map reduce处理中ram或cache的用途是什么?map reduce中的各个进程如何访问ram或cache?

bwleehnv

bwleehnv1#

您在问题中提到了集群,我们不会将单个服务器或机器称为集群
守护进程(进程)不分布在硬盘上,它们将利用ram来运行
看看这个答案

gcuhipw9

gcuhipw92#

在map-reduce应用程序的处理过程中使用ram。
一旦数据通过inputsplits(从hdfs块)读入内存(ram),处理就发生在ram中存储的数据上。
mapreduce.map.memory.mb=为每个Map任务从计划程序请求的内存量。
mapreduce.reduce.memory.mb=为每个reduce任务从调度程序请求的内存量。
以上两个参数的默认值为1024 mb(1 gb)
在map-reduce阶段使用了更多的内存相关参数。有关详细信息,请查看关于mapreduce-site.xml的文档页。
相关se问题:
hadoop集群中的mapreduce执行

yzuktlbb

yzuktlbb3#

在MapReduce1.x中,job tracker和task tracker被用来管理集群中的资源,删除它的原因是它不是一种有效的方法。自map reduce 2.x以来,引入了一种称为Yarn的新机构。您可以访问此链接http://javacrunch.in/yarn.jsp 深入了解Yarn的加工过程。hadoop守护进程使用ram来优化作业执行,就像在map reduce中一样,ram用于在提交新作业时将资源日志保存在内存中,以便资源管理器可以确定如何在集群中分发作业。更重要的一点是hadoopMap减少了面向磁盘的作业的性能它使用磁盘来执行作业,这是它比spark慢的一个主要原因。
希望这能解决你的疑问

相关问题