如何使用压缩而不是lzo来处理hadoop map/reduce中的协议缓冲区文件?

hm2xizp9  于 2021-06-04  发布在  Hadoop
关注(0)|答案(1)|浏览(460)

我想使用hadoopmap/reduce来处理使用lzo以外的东西压缩的分隔协议缓冲区文件。 xz 或者 gzip . twitter的 elephant-bird 库似乎主要支持读取lzo压缩的protobuf文件,因此似乎不能满足我的需要。是否有一个现有的库或标准的方法来实现这一点?
(注意:正如我选择的压缩算法所示,解决方案不需要使protobuf文件可拆分。您的答案甚至不需要指定特定的压缩算法,但至少应该考虑我提到的其中一种算法。)

eh57zj3b

eh57zj3b1#

您可能需要查看hadoop的ragzip补丁,以便为一个大型gzip文件处理多个map任务:ragzip

相关问题