使用hadoop流拆分压缩文件

vdzxcuhz  于 2021-06-02  发布在  Hadoop
关注(0)|答案(0)|浏览(263)

我正试图在google的云平台上使用hadoop流作业来处理许多大的(>1gb)gzip文件。即使在大内存机器上,作业也会不断耗尽内存。我知道我应该先用lzo压缩它们或者先解压它们来解决这个问题。我想要么解压他们或分裂成更小的文件使用hadoop流作业。有没有办法做到这一点而不会遇到内存问题?如果没有,你能推荐另一种方法来处理这个问题而不先下载我的数据吗?
谢谢

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题