如何将emr生成的s3上的小文件与数千个简化程序合并

khbbv19g  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(271)

我的cascalogemr工作在s3存储桶上生成了数千个小文件。它生成的文件数量与我使用的减速器数量相同。转储所有这些小文件需要几分钟。我想知道是否有一种方法可以把它们集中在s3上,这样我就可以很快地把它们扔掉?
谢谢

u2nhd7ah

u2nhd7ah1#

这个问题有几种解决方案--我用的是:
https://github.com/nathanmarz/dfs-datastores/blob/develop/dfs-datastores/src/main/java/com/backtype/hadoop/consolidator.java

相关问题