嗨,我已经使用下面的代码压缩文件中存在的hdfs
hadoop jar hadoop-streaming-2.6.0-cdh5.7.1.jar \
-Dmapred.reduce.tasks=0 \
-Dmapred.output.compress=true \
-Dmapred.compress.map.output=true \
-Dmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec \
-input ${filename} \
-output location \
-mapper /bin/cat \
-inputformat org.apache.hadoop.mapred.TextInputFormat \
-outputformat org.apache.hadoop.mapred.TextOutputFormat
再次使用
hadoop jar hadoop-streaming-2.6.0-cdh5.7.1.jar \
-Dmapred.reduce.tasks=0 \
-Dmapred.input.compress=true \
-Dmapred.input.compression.codec=org.apache.hadoop.io.compress.GzipCodec \
-input ${filename} \
-output location \
-mapper /bin/cat \
-inputformat org.apache.hadoop.mapred.TextInputFormat \
-outputformat org.apache.hadoop.mapred.TextOutputFormat
但是当我检查文件大小时,它会有几个字节的差异。
例如,初始文件大小是43704541167字节,一旦我压缩和解压缩它的大小是43704541183
我想知道我们是否有办法确认压缩是否成功而没有任何数据丢失。。
提前谢谢。
暂无答案!
目前还没有任何答案,快来回答吧!