我什么时候应该在spark中使用rdd而不是dataset?

lp0sw83n  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(433)

这个问题在这里已经有答案了

何时使用sparkDataframe/数据集api,何时使用普通rdd(2个答案)
7个月前关门了。
我知道我应该主要使用spark数据集,但是我想知道是否有我应该使用的好情况 RDD 而不是数据集?

41ik7eoe

41ik7eoe1#

在一个常见的spark应用程序中,应该使用dataset/dataframe。spark在内部优化了这些结构,并为您提供了操作数据的高级API。然而,在rdd很方便的情况下:
使用graphx操作图形时
与只知道如何处理rdd的第三方库集成时
当您想使用低级api来更好地控制您的工作流时(例如 reduceByKey , aggregateByKey )

相关问题