s3通过使用pyspark将一个Dataframe中较小的多个Parquet文件识别为单个分区的Dataframe来压缩

kuhbmx9i 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(364)

我需要读取一个Dataframe（s3文件夹）的多个较小的Parquet文件，并将它们重新写入同一位置，其中包含一个或多个大小范围为黑白的文件min:128mb and max:900mb.
感谢您对此用例的建议或解决方案。

apache-spark pyspark aws-glue amazon-emr amazon-web-services

来源：https://stackoverflow.com/questions/63026936/s3-compaction-by-identifying-the-smaller-multiple-parquet-files-of-a-dataframe-i

1条答案

按热度按时间

您可以通过重新划分Dataframe并将其另存为s3来实现这一点
如果您有Dataframe的计数，那么您可以创建多个文件作为

recordsRequiredPerFIle = 100000
numOfFiles = count/recordsRequiredPerFIle
df.repartition(numOfFiles).write.parquet....

赞(0）回复(0）举报 2021-05-27

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 4个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 4个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 4个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 4个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 4个月前