关闭。这个问题需要更加突出重点。它目前不接受答案。
**想改进这个问题吗?**通过编辑这篇文章更新这个问题,使它只关注一个问题。
四年前关门了。
改进这个问题
我正在努力理解如何在apachespark的graphx中创建以下内容。我得到以下信息:
一个hdfs文件,其中包含以下形式的大量数据:
节点:connectingnode1,connectingnode2。。
例如:
123214: 521345, 235213, 657323
我需要以某种方式将这些数据存储在edgerdd中,以便在graphx中创建图形,但我不知道该如何进行。
1条答案
按热度按时间chy5wohz1#
在您阅读了hdfs源代码并将数据输入
rdd
,您可以尝试以下操作:编辑
此外,如果顶点具有恒定的默认权重,则可以直接从边创建图形,因此无需创建verticesrdd: