在spark中链minhash和lsh(bucketedrandomprojectionlsh)，用于近似距离和假阳性/阴性

ndasle7k 于 2021-05-27 发布在 Spark

关注(0)|答案(0)|浏览(298)

我有一个非常大的文档库，将每个文档转换成一组ngram（基于字符的ngram），然后使用countvecotraminger。我想加快实际距离的计算（通过使用minhash来逼近jaccard距离），但也要使用lsh技术进行bucketing。这将给我在算法的bucketing和minhash步骤中的假阴性和假阳性，但这没关系。这是我处理数据的唯一方法。
我的问题是，sparks minhash返回一个数组（densevector，true），其中每个densevector都是一维的。
lsh预计会有一个densevector。所以我要做的是把一个一维的密集度向量数组变成一个n维的密集度向量。我怎么能用spark做到呢？
我没有礼貌地试过
矢量汇编程序
自定义项
Pandas自选基金

apache-spark pyspark transform

来源：https://stackoverflow.com/questions/62828675/chain-minhash-and-lsh-bucketedrandomprojectionlsh-in-spark-for-approx-distance

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

在spark中链minhash和lsh(bucketedrandomprojectionlsh)，用于近似距离和假阳性/阴性

暂无答案！

相关问题

热门标签

最新问答