Apache Spark 正在将 parquet 文件写入现有AWS S3存储桶

zzwlnbp8 于 2022-11-25 发布在 Apache

关注(0)|答案(1)|浏览(155)

版本：emr-5.33.1、pyspark2.4.7
尝试迭代读取数据子集，转换它，然后将它们保存到保存桶。路径看起来像这样：{bucket_uri}/folder1/date=20220101/
当没有这样的date=20220101分区文件夹时，可以写入，但它输出

pyspark.sql.utils.AnalysisException: 'path ... already exists'

我的代码如下所示：

output_path = 'bucket_uri/folder1/date=20220101'
for i in range(0, 100, 10):
    pdf = spark.read.parquet(file_list[i:i+10])
    .... doing transformations....
    pdf_transformed.write.parquet(output_path)

我可以通过在每次迭代中将pyspark df写入不同的文件夹bucket_uri/folder1/date=20220101/iteration{i}来添加额外的层，但我希望将所有 parquet 文件保存在一个文件夹中。

apache-spark

来源：https://stackoverflow.com/questions/74542958/writing-parquet-files-into-existing-aws-s3-bucket

1条答案

按热度按时间

wfveoks01#

在将 Dataframe 写入S3时，您需要指定模式-追加或覆盖。追加模式将保留现有数据并将新数据添加到同一文件夹，而覆盖模式将删除现有数据并写入新数据。因此，最后，它归结为您是否希望在输出路径中保留现有数据。

pdf_transformed.write.mode(“append”).parquet(output_path) #if you want to append data


pdf_transformed.write.mode(“overwrite”).parquet(output_path) #if you want to overwrite the data in the output path

赞(0）回复(0）举报 2022-11-25

我来回答

Apache Spark 正在将 parquet 文件写入现有AWS S3存储桶

1条答案

相关问题

热门标签

最新问答