s3通过使用pyspark将一个Dataframe中较小的多个Parquet文件识别为单个分区的Dataframe来压缩

kuhbmx9i  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(364)

我需要读取一个Dataframe(s3文件夹)的多个较小的Parquet文件,并将它们重新写入同一位置,其中包含一个或多个大小范围为黑白的文件min:128mb and max:900mb.
感谢您对此用例的建议或解决方案。

isr3a4wc

isr3a4wc1#

您可以通过重新划分Dataframe并将其另存为s3来实现这一点
如果您有Dataframe的计数,那么您可以创建多个文件作为

recordsRequiredPerFIle = 100000
numOfFiles = count/recordsRequiredPerFIle
df.repartition(numOfFiles).write.parquet....

相关问题