这个问题在这里已经有答案了:
何时使用sparkDataframe/数据集api,何时使用普通rdd(2个答案)7个月前关门了。我知道我应该主要使用spark数据集,但是我想知道是否有我应该使用的好情况 RDD 而不是数据集?
RDD
41ik7eoe1#
在一个常见的spark应用程序中,应该使用dataset/dataframe。spark在内部优化了这些结构,并为您提供了操作数据的高级API。然而,在rdd很方便的情况下:使用graphx操作图形时与只知道如何处理rdd的第三方库集成时当您想使用低级api来更好地控制您的工作流时(例如 reduceByKey , aggregateByKey )
reduceByKey
aggregateByKey
1条答案
按热度按时间41ik7eoe1#
在一个常见的spark应用程序中,应该使用dataset/dataframe。spark在内部优化了这些结构,并为您提供了操作数据的高级API。然而,在rdd很方便的情况下:
使用graphx操作图形时
与只知道如何处理rdd的第三方库集成时
当您想使用低级api来更好地控制您的工作流时(例如
reduceByKey
,aggregateByKey
)