我有大约1tb的数据,我已经将这些数据存储在顶点和边文件中,以加载到spark graphframe中,从而创建一个图并在此图上运行motif(模式查找)查询。
对于每个批处理,需要将这1tb的顶点和边文件加载到graphframe中以创建并查询它。
我遇到的问题是创建图的速度很慢,所以我想把这个创建的图存储到s3/磁盘上,这样从下次开始我就可以直接加载这个图并在它上面运行查询,这会很快。有没有办法呢,就是用graphframe创建一个巨大的图形,把它存储在磁盘上,下次直接把这个图形加载到graphframe中查询。
1条答案
按热度按时间vuv7lop31#
你确定最慢的部分是创建graphframe吗?
根据我的经验,graphframe对象的创建并不是很慢,对不起。但是图案的计算非常慢,特别是如果你要计算长度超过10的话。原因是它在引擎盖下创建的Dataframe上进行自连接,您可以从中看到https://www.waitingforcode.com/apache-spark-graphframes/motifs-finding-graphframes/read.
希望这有帮助