在spark中执行连接时,使用Dataframe比pairdds有什么优点/缺点吗。换句话说,是否有任何连接优化只能用pairdds而不能用dataframes?
w6mmgewl1#
使用k,v方法,需要使用2个连接完成一个具有(3)rdd的三向连接。这是繁琐的,不能优化,只是为了加入rdd的。df也可以作为一个查询来完成,而使用stats优化可以应用于使用stats或spark3的连接顺序。rdd的-->非常痛苦的加入。
1条答案
按热度按时间w6mmgewl1#
使用k,v方法,需要使用2个连接完成一个具有(3)rdd的三向连接。这是繁琐的,不能优化,只是为了加入rdd的。
df也可以作为一个查询来完成,而使用stats优化可以应用于使用stats或spark3的连接顺序。
rdd的-->非常痛苦的加入。