这个问题在这里已经有答案了:
如何将rdd数据保存到json文件而不是文件夹中(3个答案)
四年前关门了。
我有Dataframe,我想保存在hdfs位置上的单个文件中。
我在这里找到的解决方案是使用spark csv编写单个csv文件
df.coalesce(1)
.write.format("com.databricks.spark.csv")
.option("header", "true")
.save("mydata.csv")
但是所有的数据都会被写入mydata.csv/part-00000,我想成为mydata.csv文件。
有可能吗?
有人帮忙吗
1条答案
按热度按时间93ze6v8z1#
使用标准的spark库是不可能的,但是您可以使用hadoop api来管理文件系统—将输出保存在临时目录中,然后将文件移动到请求的路径。例如(在pyspark中):