我试图在mr上实现dbscan,并使用下面粘贴的链接中的直觉
http://codingwiththomas.blogspot.com/2012/05/distributed-dbscan-intuition.html
实现dbscan算法查询mongodb数据库的最佳编程语言?我的问题是如何计算初始距离矩阵。我不想仅仅为了计算距离矩阵而运行hadoop作业并将其存储在内存中,因为我不是一个好的设计。任何建议。
hlswsv351#
谢谢你看我的博客。是的,距离矩阵很难计算。我已经应用了minhash集群(mahout也有一个实现)来查找非常相似的向量。所以你不必计算整个距离矩阵,而是计算相似向量的距离矩阵。所以我给你们的建议是使用mahout的minhashing来寻找类似向量的簇。然后为它们计算一个较小的距离矩阵,然后应用我在帖子中写的其余要点:从“迷你”簇中提取相邻点从生成的图中运行连接组件算法(有mapreduce、giraph和hama的实现)基本上就是这样。不幸的是,无法打开整个阶段的源代码,所以这就是整个过程所需要的。
1条答案
按热度按时间hlswsv351#
谢谢你看我的博客。
是的,距离矩阵很难计算。
我已经应用了minhash集群(mahout也有一个实现)来查找非常相似的向量。所以你不必计算整个距离矩阵,而是计算相似向量的距离矩阵。
所以我给你们的建议是使用mahout的minhashing来寻找类似向量的簇。然后为它们计算一个较小的距离矩阵,然后应用我在帖子中写的其余要点:
从“迷你”簇中提取相邻点
从生成的图中运行连接组件算法(有mapreduce、giraph和hama的实现)
基本上就是这样。不幸的是,无法打开整个阶段的源代码,所以这就是整个过程所需要的。