hadoop:如何通过当代api(2.7+)实现中间数据的压缩?

kx5bkwkv  于 2021-05-31  发布在  Hadoop
关注(0)|答案(0)|浏览(125)

我找到了大量关于如何使用不推荐使用的api实现中间数据压缩的建议,但我没有提到任何最新的建议。我已经浏览了一下api,但是还没有发现任何明显的等价物,尽管我仍然在加快速度,所以显然在游戏中也缺乏熟悉性。
下面是我遇到的一个例子:

JobConf conf = new JobConf(new Configuration(), MyJob.class);
conf.set("mapreduce.compress.map.output", "true");
conf.set("mapreduce.map.output.compression.codec", 
         "org.apache.hadoop.io.compress.GzipCodec");

如果不使用压缩,所涉及的数据集足够大,可以将hdfs节点推入安全模式,因此依赖用户提供cli参数会带来不可接受的风险(可用存储空间几乎没有应有的多,但这不在我的掌握范围之内)。我需要一个纯编码解决方案。如何在2.7+中启用压缩和设置编解码器?
一个最小的代码示例,或者api相关部分的概要,将非常感激。提前谢谢!

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题