Apache Spark 多个数据集是否可以依次写入同一文件夹？

iklwldmw 于 2022-12-19 发布在 Apache

关注(0)|答案(1)|浏览(201)

我的代码从同一个SparkSession对象生成一系列数据集，并将它们作为Parquet文件写入文件夹。我希望看到每次写入都在该文件夹中具体化一个新的Parquet文件，但代码似乎在第一次写入后挂起。
代码如下所示：

// Called in a loop with different values for the dataset parameter
void writeDataset(Dataset[Row] dataset) {
    DataFrameWriter[Row] writer = dataset.write();
    writer.format("parquet");
    writer.save("/tmp/folder");
}

第一次写操作确实在上面的/tmp/文件夹中生成了一个parquet文件和一个_SUCCESS文件，但是对该方法的后续调用似乎在保存（）方法处挂起。
当在循环中调用时，如何使多个数据集分别在一个文件夹中生成一个Parquet（或Avro或JSON）文件？

apache-spark

来源：https://stackoverflow.com/questions/74814264/can-multiple-datasets-write-to-the-same-folder-one-after-another

1条答案

按热度按时间

juud5qan1#

我可以使用writer上的SaveMode.append选项让它添加新文件：https://spark.apache.org/docs/3.2.1/api/java/org/apache/spark/sql/SaveMode.html

赞(0）回复(0）举报 2022-12-19

我来回答

Apache Spark 多个数据集是否可以依次写入同一文件夹？

1条答案

相关问题

热门标签

最新问答