我得到了一个相似矩阵如下: ItemA , ItemB , Similarity .我希望它使用如下算法对数据集进行聚类 Kmeans 通过使用 MapReduce . 但我不知道有多少 MapReduce 我应该用什么以及如何设计它们。
ItemA
ItemB
Similarity
Kmeans
MapReduce
t1rydlwq1#
不能对相似矩阵使用k-均值。故事的结尾:k-means需要的是手段的相似性,而不是示例之间的相似性。但也有其他的算法。不幸的是,例如pam的伸缩性非常差,在集群上运行它也没有什么回报。除此之外,只是实验。选择尽可能多的减少你有核心,例如;选择尽可能多的Map器(除非你的数据太小,否则每个Map器应该有好几mb的空间,这样可以让启动成本得到回报)但我认为你还没有准备好回答这个问题。首先弄清楚你想做什么,然后如何设置可能出现或根本不出现的参数。。
1条答案
按热度按时间t1rydlwq1#
不能对相似矩阵使用k-均值。故事的结尾:k-means需要的是手段的相似性,而不是示例之间的相似性。但也有其他的算法。不幸的是,例如pam的伸缩性非常差,在集群上运行它也没有什么回报。
除此之外,只是实验。选择尽可能多的减少你有核心,例如;选择尽可能多的Map器(除非你的数据太小,否则每个Map器应该有好几mb的空间,这样可以让启动成本得到回报)
但我认为你还没有准备好回答这个问题。首先弄清楚你想做什么,然后如何设置可能出现或根本不出现的参数。。