使用mapreduce设计集群

i5desfxk 于 2021-05-30 发布在 Hadoop

关注(0)|答案(1)|浏览(362)

我得到了一个相似矩阵如下： ItemA , ItemB , Similarity .
我希望它使用如下算法对数据集进行聚类 Kmeans 通过使用 MapReduce . 但我不知道有多少 MapReduce 我应该用什么以及如何设计它们。

hadoop mapreduce cluster-analysis k-means data-mining

来源：https://stackoverflow.com/questions/25800256/the-design-of-clustering-using-mapreduce

1条答案

按热度按时间

t1rydlwq1#

不能对相似矩阵使用k-均值。故事的结尾：k-means需要的是手段的相似性，而不是示例之间的相似性。但也有其他的算法。不幸的是，例如pam的伸缩性非常差，在集群上运行它也没有什么回报。
除此之外，只是实验。选择尽可能多的减少你有核心，例如；选择尽可能多的Map器（除非你的数据太小，否则每个Map器应该有好几mb的空间，这样可以让启动成本得到回报）
但我认为你还没有准备好回答这个问题。首先弄清楚你想做什么，然后如何设置可能出现或根本不出现的参数。。

赞(0）回复(0）举报 2021-05-30

我来回答

使用mapreduce设计集群

1条答案

相关问题

热门标签

最新问答