hadoop序列文件压缩

sd2nnvve  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(393)

尝试运行作业时,出现以下错误:

SequenceFile doesn't work with GzipCodec without native-hadoop code!

我在好几个地方读过,我需要获得本机hadoop代码,但是这对我来说是一个痛苦的安装。这将是很好的,如果有一个参数,我可以设置在某处(核心网站,hdfs网站,Map网站…等),只要重新启动hdfs。
我曾尝试在mapred-site.xml中设置以下属性,但没有成功:

mapred.map.output.compress.codec
mapreduce.output.fileoutputformat.compress.codec

有没有办法把gzip转换成不需要本机代码的压缩格式?
hadoop版本:cdh 5.2.0操作系统:centos 6.6

xfb7svmp

xfb7svmp1#

你可以用lzo或snappyhttps://code.google.com/p/hadoop-snappy/ 用于压缩数据。您应该将这些配置添加到mapred-site.xml中

<property>
    <name>mapred.compress.map.output</name>
    <value>true</value>
  </property>

<property>
    <name>mapred.map.output.compression.codec</name>
    <value>org.apache.hadoop.io.compress.SnappyCodec</value>
</property>

相关问题