我正在尝试使用pyspark在graphframe上运行pagerank算法。但是,当我执行它时,程序会无休止地运行,并收到以下警告:
代码如下:
vertices = sc.createDataFrame(lst_sent,['id', 'Sentence'])
edges = sc.createDataFrame(final_rdd,['src', 'dst','similarity'])
g = GraphFrame(vertices, edges)
g.vertices.show()
g.edges.show()
g.degrees.show()
pr = g.pageRank(tol=0.000001)
pr.vertices.show()
1条答案
按热度按时间os8fio9y1#
如果其他人也面临同样的问题,我找到了一个解决方案。使用rdd持久性解决了这个问题:
持久性(存储级别、内存和磁盘)