使用hadoop流拆分压缩文件

vdzxcuhz 于 2021-06-02 发布在 Hadoop

关注(0)|答案(0)|浏览(278)

我正试图在google的云平台上使用hadoop流作业来处理许多大的（>1gb）gzip文件。即使在大内存机器上，作业也会不断耗尽内存。我知道我应该先用lzo压缩它们或者先解压它们来解决这个问题。我想要么解压他们或分裂成更小的文件使用hadoop流作业。有没有办法做到这一点而不会遇到内存问题？如果没有，你能推荐另一种方法来处理这个问题而不先下载我的数据吗？
谢谢

hadoop mapreduce google-cloud-platform hadoop-streaming compression

来源：https://stackoverflow.com/questions/29842637/splitting-compressed-files-with-hadoop-streaming

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

使用hadoop流拆分压缩文件

暂无答案！

相关问题

热门标签

最新问答