如何获取存储在hdfs上的gzip压缩文件的原始内容?

ac1kyiln  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(445)

有没有任何方法可以逐字节读取hadoop hdfs上存储的文件的原始内容?
通常在我提交流式处理作业时 -input 指向 .gz 文件(如 -input hdfs://host:port/path/to/gzipped/file.gz ).
我的任务收到逐行解压缩的输入,这不是我想要的。

mxg2im7a

mxg2im7a1#

您可以初始化 FileSystem 使用各自的hadoop配置:

FileSystem.get(conf);

它有一个方法 open 原则上应该允许您读取原始数据。

相关问题