我找到了大量关于如何使用不推荐使用的api实现中间数据压缩的建议,但我没有提到任何最新的建议。我已经浏览了一下api,但是还没有发现任何明显的等价物,尽管我仍然在加快速度,所以显然在游戏中也缺乏熟悉性。
下面是我遇到的一个例子:
JobConf conf = new JobConf(new Configuration(), MyJob.class);
conf.set("mapreduce.compress.map.output", "true");
conf.set("mapreduce.map.output.compression.codec",
"org.apache.hadoop.io.compress.GzipCodec");
如果不使用压缩,所涉及的数据集足够大,可以将hdfs节点推入安全模式,因此依赖用户提供cli参数会带来不可接受的风险(可用存储空间几乎没有应有的多,但这不在我的掌握范围之内)。我需要一个纯编码解决方案。如何在2.7+中启用压缩和设置编解码器?
一个最小的代码示例,或者api相关部分的概要,将非常感激。提前谢谢!
暂无答案!
目前还没有任何答案,快来回答吧!