我正试图在google的云平台上使用hadoop流作业来处理许多大的(>1gb)gzip文件。即使在大内存机器上,作业也会不断耗尽内存。我知道我应该先用lzo压缩它们或者先解压它们来解决这个问题。我想要么解压他们或分裂成更小的文件使用hadoop流作业。有没有办法做到这一点而不会遇到内存问题?如果没有,你能推荐另一种方法来处理这个问题而不先下载我的数据吗?谢谢
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!