文档聚类的二分kmeans

58wvjzkj 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(307)

我目前正在研究文档聚类。我想在我的数据集（文本文档）上用java运行二分法kmeans。有人能提供相同的代码吗。最后的运行将在hadoop中使用mapreduce。
谢谢您。

hadoop mapreduce cluster-analysis k-means hierarchical-clustering

来源：https://stackoverflow.com/questions/28470135/bisecting-kmeans-for-document-clustering

1条答案

按热度按时间

czq61nw11#

你有没有在mahout或spark mllib中找到编写聚类算法的方法？这些是hadoop机器学习的实际行业标准。这两个库都有k-means（在许多其他库中），但它们都没有一个已发布的二分k-means版本。github中的spark项目上有一个为层次k-means（spark-2429）打开的pull请求（不确定这是否与平分k-means相同）。
我想说的另一点是让你考虑spark而不是mapreduce。对于k-means这样的迭代算法，spark的性能要好得多。

赞(0）回复(0）举报 2021-06-04

我来回答

文档聚类的二分kmeans

1条答案

相关问题

热门标签

最新问答