pysparkDataframe连接需要很长时间

nle07wnf  于 2021-06-26  发布在  Hive
关注(0)|答案(1)|浏览(366)

pyspark中有2个Dataframe,我使用2个sparksql查询从配置单元数据库加载。
当我尝试使用 df1.join(df2,df1.id_1=df2.id_2) ,需要很长时间。当我调用join时,spark是否重新执行df1和df2的sql?
底层数据库是配置单元

uplii1fm

uplii1fm1#

pyspark将比使用scala慢,因为数据序列化发生在python进程和jvm之间,并且工作是在python中完成的。

相关问题