spark:获取大量数据的组合以生成graphx的边集

jmo0nnb3  于 2021-06-02  发布在  Hadoop
关注(0)|答案(0)|浏览(335)

我正在使用spark graphx构建wifi关系图。顶点是用户id。如果两个用户连接了同一个wifi,则边为真
现在我有一个巨大的rdd:rdd[(u,v)]。rdd的关键是wifi id,值是连接了这个wifi的所有用户的集合(最大的wifi有5万用户。最小的wifi有3个用户。总用户数为10000000。所有wifi为2000000)
我必须建立一个边缘集,如果两个用户连接了同一个wifi。
现在我在spark中使用笛卡尔坐标,但是速度太慢(可能几个星期),占用的内存太多。
我该怎么解决?我非常感谢!

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题