用rhadoop实现r多核计算

jaxagkaj  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(393)

我试着用rhadoop(r和hadoop之间的链接)计算一些东西。
当我用hadoop-1.0.4中的嵌入式示例对集群进行基准测试时,它看起来运行得很好我的意思是所有从节点的核心都工作了,尽管cpu使用率在50%到100%之间波动
然而,当我应用rhadoop的一个例子时,情况并非如此(每个从属节点只有一个核心被激活。)
在rhadoop中是否有我必须设置的配置?(就像我对hadoop的配置文件如core site.xml所做的那样)
谢谢

wgx48brx

wgx48brx1#

您可能在谈论rmr2,它是rhadoop的一部分。rmr2对此没有特定的配置。 help(rmr.options) 将显示所有配置选项。map任务和map槽的数量决定了map阶段的并行度。听起来你的位置够多了。所以map任务的数量可能不够。它可能取决于输入的大小和其他属性。可以向mapreduce传递一个附加参数 backend.parameters = list(hadoop = list(D = 'mapred.map.tasks')) 但是hadoop不尊重这个设置,只是把它当作一个提示。这个 backend.parameters 参数已弃用,但当它被删除时,将为此特定目标提供一些替代机制。如果问题处于reduce阶段,则密钥集的基数也很重要(它设置了并行度的上限)。我同意保罗的观点,如果你提供了一个可复制的例子,我的答案将包含更少的猜测。rhadoop有一个专门的论坛,开发者和用户可以在这里活动https://groups.google.com/forum/?fromgroups=#!论坛/rhadoop

相关问题