在spark中链minhash和lsh(bucketedrandomprojectionlsh),用于近似距离和假阳性/阴性

ndasle7k  于 2021-05-27  发布在  Spark
关注(0)|答案(0)|浏览(298)

我有一个非常大的文档库,将每个文档转换成一组ngram(基于字符的ngram),然后使用countvecotraminger。我想加快实际距离的计算(通过使用minhash来逼近jaccard距离),但也要使用lsh技术进行bucketing。这将给我在算法的bucketing和minhash步骤中的假阴性和假阳性,但这没关系。这是我处理数据的唯一方法。
我的问题是,sparks minhash返回一个数组(densevector,true),其中每个densevector都是一维的。
lsh预计会有一个densevector。所以我要做的是把一个一维的密集度向量数组变成一个n维的密集度向量。我怎么能用spark做到呢?
我没有礼貌地试过
矢量汇编程序
自定义项
Pandas自选基金

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题