我的cascalogemr工作在s3存储桶上生成了数千个小文件。它生成的文件数量与我使用的减速器数量相同。转储所有这些小文件需要几分钟。我想知道是否有一种方法可以把它们集中在s3上,这样我就可以很快地把它们扔掉?谢谢康
u2nhd7ah1#
这个问题有几种解决方案--我用的是:https://github.com/nathanmarz/dfs-datastores/blob/develop/dfs-datastores/src/main/java/com/backtype/hadoop/consolidator.java
1条答案
按热度按时间u2nhd7ah1#
这个问题有几种解决方案--我用的是:
https://github.com/nathanmarz/dfs-datastores/blob/develop/dfs-datastores/src/main/java/com/backtype/hadoop/consolidator.java