我的rdd实际上包含一些生物数据,即蛋白质名称,以及它们之间的相似度。我想创建一个图,其中顶点是蛋白质,边表示相似性值。这实际上是我的rdd:
+-------------+------------+------------+
| Protein1 | Protein2 | Similarity |
+-------------+------------+------------+
| P28469 | Q70UP5 | 0.11111111 |
| O45687 | P00325 | 1.0 |
| A7ME43 | Q5HG16 | 0.6 |
| A4VJT7 | Q9LD43 | 1.0 |
| P31937 | Q64415 | 0.07692308 |
| A1VAA0 | Q9L298 | 1.0 |
| B8DG74 | Q6MT35 | 1.0 |
+-------------+------------+------------+
谢谢您!
1条答案
按热度按时间edqdpe6u1#
不是相同的数据,但您需要这样做(当然是从文件中),并使此方法适应您的数据:
就你而言: