我在hadoop存档中有大量的数据 .har
格式。从那以后, har
不包括任何压缩,我试图进一步gzip它在和存储在hdfs。我唯一可以毫无差错地工作的是:
harFile.coalesce(1, "true")
.saveAsTextFile("hdfs://namenode/archive/GzipOutput", classOf[org.apache.hadoop.io.compress.GzipCodec])
//`coalesce` because Gzip isn't splittable.
但是,这并不能给出正确的结果。生成了gzip文件,但输出无效(一行表示rdd类型等)
任何帮助都将不胜感激。我也愿意接受任何其他方法。
谢谢。
1条答案
按热度按时间5jdjgkvh1#
用于创建现有hdfs文件的压缩版本的java代码段。
用我不久前编写的java应用程序的零碎片段在一个文本编辑器中匆匆构建,因此没有经过测试;可能会出现一些拼写错误和空白。