文档聚类的二分kmeans

58wvjzkj  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(307)

我目前正在研究文档聚类。我想在我的数据集(文本文档)上用java运行二分法kmeans。有人能提供相同的代码吗。最后的运行将在hadoop中使用mapreduce。
谢谢您。

czq61nw1

czq61nw11#

你有没有在mahout或spark mllib中找到编写聚类算法的方法?这些是hadoop机器学习的实际行业标准。这两个库都有k-means(在许多其他库中),但它们都没有一个已发布的二分k-means版本。github中的spark项目上有一个为层次k-means(spark-2429)打开的pull请求(不确定这是否与平分k-means相同)。
我想说的另一点是让你考虑spark而不是mapreduce。对于k-means这样的迭代算法,spark的性能要好得多。

相关问题