如何计算相似度scala spark

y0u0uwnf  于 2021-05-29  发布在  Spark
关注(0)|答案(0)|浏览(306)

我正在研究一个rdd上的相似度计算函数,这个rdd包含蛋白质名称和它们的域。
实际上,我使用cartisian函数来确定rdd中所有可能的对,它们看起来像

((**P29535**,IPR004839;IPR004838;IPR015424;IPR015422;IPR0154),(**A6MML6**,IPR034733;IPR000438;IPR029045;IPR0117))

(注:这只是一个例子,我发现的结果是数百万对…)
粗体字是蛋白质的名称,其余的是它们的域。你能帮我根据他们的领域来确定他们之间的相似度吗?
我希望得到如下结果:


* protein_name1* + "and" + *protein_name2* + "have a similiarity degree equals to:" + *similarity*

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题