在集群模式下使用spark将Dataframe(.csv)写入本地系统或hdfs

ix0qys7i  于 2021-05-19  发布在  Spark
关注(0)|答案(1)|浏览(872)

我正在尝试将pandasDataframe写入本地系统,或者在集群模式下使用spark将其写入hdfs,但是它抛出了一个错误,如

IOError: [Errno 2] No such file or directory: {hdfs_path/file_name.txt}

我就是这么写的

df.to_csv("hdfs_path/file_name.txt", sep="|")

我使用的是python,作业是通过shell脚本运行的。
如果我在本地模式下,但不是在Yarn簇模式下,这可以正常工作。
欢迎任何支持,并提前表示感谢。

wlzqhblo

wlzqhblo1#

我也有同样的问题,在apache spark文件系统上创建文件之前,我总是将Dataframe转换为sparkDataframe:

df_sp = spark.createDataFrame(df_pd)
df_sp.coalesce(1).write.csv("my_file.csv", mode='overwrite', header = True)

相关问题