rdd警告:内存中没有足够的空间来缓存rdd

o4hqfura  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(656)

我正在尝试使用pyspark在graphframe上运行pagerank算法。但是,当我执行它时,程序会无休止地运行,并收到以下警告:

代码如下:

vertices = sc.createDataFrame(lst_sent,['id', 'Sentence'])
edges = sc.createDataFrame(final_rdd,['src', 'dst','similarity'])
g = GraphFrame(vertices, edges)
g.vertices.show() 
g.edges.show()
g.degrees.show()
pr = g.pageRank(tol=0.000001)
pr.vertices.show()
os8fio9y

os8fio9y1#

如果其他人也面临同样的问题,我找到了一个解决方案。使用rdd持久性解决了这个问题:
持久性(存储级别、内存和磁盘)

相关问题