pandasdataframe到pyspark中的csv是否存储在spark驱动程序内存中?

6rqinv9w  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(378)

我在一个Yarn簇里运行Pypark。只是一个我想到的问题。在spark群集中使用Dataframe时,使用的是spark驱动程序的内存。如果使用to_csv()方法将该文件保存到csv中,则此csv输出是否永久存储在驱动程序内存中,或者在关闭spark会话时删除此文件?

mu0hgdu0

mu0hgdu01#

pyspark是分布式处理框架,而pandas在单个节点上运行代码,因此只要将pysparkDataframe转换为pandasDataframe,它就会在驱动程序本身上执行。
当您执行从df.to csv到csv时,它不会存储在内存中,而是存储在磁盘上您提供的路径中。所以驱动程序内存不包含它。

相关问题