minhashlsh在spark mllib中的实际作用是什么?据我所知,它会生成一组散列函数。这些函数是随机生成的吗?我们用输入数据来拟合什么?
我使用过的代码引用
https://github.com/apache/spark/blob/master/mllib/src/main/scala/org/apache/spark/ml/feature/minhashlsh.scala#l179-l186型
https://github.com/apache/spark/blob/master/mllib/src/main/scala/org/apache/spark/ml/feature/lsh.scala#l349-l354级
上述生成的哈希函数可用于两个数据集上的appx.similiarityjoin生成哈希,并根据这些哈希计算jaccard距离。如果我漏了什么就告诉我。
暂无答案!
目前还没有任何答案,快来回答吧!