mahout在集群中的cpu利用率

ercv8c1e 于 2021-06-04 发布在 Hadoop

关注(0)|答案(1)|浏览(506)

我用mahout做文本聚类
我的电脑设备和软件如下
服务器：
cpu:intel xeon e5-2620 2ghz，ram:64gb
软件：
virtualbox上的ubuntu-12.4.1
hadoop-1.0.4、mahout-0.7
我用canopy算法对80000个txt文件进行聚类。但它运行了很长一段时间，只需要两三周就可以完成，但我发现cpu利用率略低于20%。
我发现有人也有这个问题，http://mail-archives.apache.org/mod_mbox/mahout-user/201212.mbox/%3c7959565186420075099@unknownmsgid%3e#archives
但我仍然不知道如何加速它，另一方面，是一些参数设置我得到损失？或者服务器的功能不足以运行此作业？

hadoop cpu cluster-analysis mahout

来源：https://stackoverflow.com/questions/14329883/mahout-cpu-utilization-in-clustering

1条答案

按热度按时间

pvabu6sv1#

hadoop和mahout适用于多台计算机。在一台主机上，为这种操作而优化的软件可能要快得多。
hadoop（和mahout）管理的数据太大，无法放入单个计算机内存。这要求数据存储在文件中，并通过网络传输到其他主机。
现在，如果你采用这种方法——反复写临时结果——而不需要这样做，你当然会比在内存中做任何事情都慢。
由于您的cpu没有充分利用，您可能会猜到其他地方一定有瓶颈。看看你的磁盘io。这可能是你目前的限制因素。

赞(0）回复(0）举报 2021-06-04

我来回答

mahout在集群中的cpu利用率

1条答案

相关问题

热门标签

最新问答