在hadoop中合并小文件-有什么不同的方法？

2hh7jdfx 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(443)

我有一个用例，我们有800000个json文件，每个文件大小为2kb。我们的要求是把这些小文件合并成一个大文件。我们已经尝试在spark中使用重划分和合并来实现这一点。然而，我们并不认为这是有效的，因为这是消耗更多的时间比预期。有没有其他的方法来达到同样的效果？
谢谢你的帮助。提前谢谢。

hadoop Hive apache-spark apache-pig

来源：https://stackoverflow.com/questions/49036132/merge-small-files-in-hadoop-what-are-the-different-ways

1条答案

按热度按时间

hadoop不是您的案例中使用的合适工具。我建议只编写一个小型java或scala程序，将这些文件逐个读取并输出到单个文件。任何与hadoop相关的工具都会给你带来巨大的性能开销（例如pig的初始化大约需要30秒），而独立应用程序将在1-2分钟甚至更短的时间内处理这些800k文件。

赞(0）回复(0）举报 2021-05-29

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 4个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 4个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 4个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 4个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 4个月前