reduce

du7egjpx  于 2021-06-03  发布在  Hadoop
关注(0)|答案(3)|浏览(280)

我读过很多关于hadoop和map reduce在机器集群上运行的文章。有人知道apache发行版是否可以在具有多个核心的smp上运行吗。特别是,可以在同一台机器上运行多个map reduce进程。调度器将负责将它们分布在多个核心上。谢谢。-公斤

bvn4nwqk

bvn4nwqk1#

对于apachehadoop2.7.3,我的经验是,启用yarn还可以实现多核支持。以下是在单个节点上启用Yarn的简单指南:
https://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-common/singlecluster.html#yarn_on_a_single_node
默认配置似乎运行得很好。如果您想调整核心使用率,那么可以在yarn-site.xml中设置“yarn.scheduler.minimum allocation vcores”和“yarn.scheduler.maximum allocation vcores”(https://hadoop.apache.org/docs/r2.7.1/hadoop-yarn/hadoop-yarn-common/yarn-default.xml)
另外,有关如何配置具有多核支持的简单hadoop沙盒的说明,请参见此处:https://bitbucket.org/aperezrathke/hadoop-aee

voj3qocg

voj3qocg2#

您可以将这些轻量级mapreduce框架用于多核计算机。
例如
leotask:一个轻量级、高效、可靠的多核计算机mapreduce框架
https://github.com/mleoking/leotask

xfb7svmp

xfb7svmp3#

对。在每台机器中有多个map和reduce插槽,这些插槽由ram和cpu决定(每个jvm示例默认需要1gb,因此一台8gb的机器有16个内核,应该仍然有7个任务插槽)
来自hadoop wiki
使用配置旋钮:mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.tasks.maximum来控制在tasktracker上同时生成的Map/减少的数量。默认情况下,它被设置为2,因此在tasktracker的给定示例上,最多可以看到2个Map和2个缩减。
您可以根据每个tasktracker设置这些值,以准确反映您的硬件(即在更强大的tasktracker上设置更高的值)。

相关问题