我需要读取一个Dataframe(s3文件夹)的多个较小的Parquet文件,并将它们重新写入同一位置,其中包含一个或多个大小范围为黑白的文件min:128mb and max:900mb.感谢您对此用例的建议或解决方案。
isr3a4wc1#
您可以通过重新划分Dataframe并将其另存为s3来实现这一点如果您有Dataframe的计数,那么您可以创建多个文件作为
recordsRequiredPerFIle = 100000 numOfFiles = count/recordsRequiredPerFIle df.repartition(numOfFiles).write.parquet....
1条答案
按热度按时间isr3a4wc1#
您可以通过重新划分Dataframe并将其另存为s3来实现这一点
如果您有Dataframe的计数,那么您可以创建多个文件作为