我想使用hadoopmap/reduce来处理使用lzo以外的东西压缩的分隔协议缓冲区文件。 xz 或者 gzip . twitter的 elephant-bird 库似乎主要支持读取lzo压缩的protobuf文件,因此似乎不能满足我的需要。是否有一个现有的库或标准的方法来实现这一点?(注意:正如我选择的压缩算法所示,解决方案不需要使protobuf文件可拆分。您的答案甚至不需要指定特定的压缩算法,但至少应该考虑我提到的其中一种算法。)
xz
gzip
eh57zj3b1#
您可能需要查看hadoop的ragzip补丁,以便为一个大型gzip文件处理多个map任务:ragzip
1条答案
按热度按时间eh57zj3b1#
您可能需要查看hadoop的ragzip补丁,以便为一个大型gzip文件处理多个map任务:ragzip