mahout在集群中的cpu利用率

ercv8c1e  于 2021-06-04  发布在  Hadoop
关注(0)|答案(1)|浏览(506)

我用mahout做文本聚类
我的电脑设备和软件如下
服务器:
cpu:intel xeon e5-2620 2ghz,ram:64gb
软件:
virtualbox上的ubuntu-12.4.1
hadoop-1.0.4、mahout-0.7
我用canopy算法对80000个txt文件进行聚类。但它运行了很长一段时间,只需要两三周就可以完成,但我发现cpu利用率略低于20%。
我发现有人也有这个问题,http://mail-archives.apache.org/mod_mbox/mahout-user/201212.mbox/%3c7959565186420075099@unknownmsgid%3e#archives
但我仍然不知道如何加速它,另一方面,是一些参数设置我得到损失?或者服务器的功能不足以运行此作业?

pvabu6sv

pvabu6sv1#

hadoop和mahout适用于多台计算机。在一台主机上,为这种操作而优化的软件可能要快得多。
hadoop(和mahout)管理的数据太大,无法放入单个计算机内存。这要求数据存储在文件中,并通过网络传输到其他主机。
现在,如果你采用这种方法——反复写临时结果——而不需要这样做,你当然会比在内存中做任何事情都慢。
由于您的cpu没有充分利用,您可能会猜到其他地方一定有瓶颈。看看你的磁盘io。这可能是你目前的限制因素。

相关问题