我目前正在研究文档聚类。我想在我的数据集(文本文档)上用java运行二分法kmeans。有人能提供相同的代码吗。最后的运行将在hadoop中使用mapreduce。谢谢您。
czq61nw11#
你有没有在mahout或spark mllib中找到编写聚类算法的方法?这些是hadoop机器学习的实际行业标准。这两个库都有k-means(在许多其他库中),但它们都没有一个已发布的二分k-means版本。github中的spark项目上有一个为层次k-means(spark-2429)打开的pull请求(不确定这是否与平分k-means相同)。我想说的另一点是让你考虑spark而不是mapreduce。对于k-means这样的迭代算法,spark的性能要好得多。
1条答案
按热度按时间czq61nw11#
你有没有在mahout或spark mllib中找到编写聚类算法的方法?这些是hadoop机器学习的实际行业标准。这两个库都有k-means(在许多其他库中),但它们都没有一个已发布的二分k-means版本。github中的spark项目上有一个为层次k-means(spark-2429)打开的pull请求(不确定这是否与平分k-means相同)。
我想说的另一点是让你考虑spark而不是mapreduce。对于k-means这样的迭代算法,spark的性能要好得多。