如何计算相似度scala spark

y0u0uwnf 于 2021-05-29 发布在 Spark

关注(0)|答案(0)|浏览(306)

我正在研究一个rdd上的相似度计算函数，这个rdd包含蛋白质名称和它们的域。
实际上，我使用cartisian函数来确定rdd中所有可能的对，它们看起来像

((**P29535**,IPR004839;IPR004838;IPR015424;IPR015422;IPR0154),(**A6MML6**,IPR034733;IPR000438;IPR029045;IPR0117))

（注：这只是一个例子，我发现的结果是数百万对…）
粗体字是蛋白质的名称，其余的是它们的域。你能帮我根据他们的领域来确定他们之间的相似度吗？
我希望得到如下结果：


* protein_name1* + "and" + *protein_name2* + "have a similiarity degree equals to:" + *similarity*

目前还没有任何答案，快来回答吧！

相关问题