有没有任何方法可以逐字节读取hadoop hdfs上存储的文件的原始内容?通常在我提交流式处理作业时 -input 指向 .gz 文件(如 -input hdfs://host:port/path/to/gzipped/file.gz ).我的任务收到逐行解压缩的输入,这不是我想要的。
-input
.gz
-input hdfs://host:port/path/to/gzipped/file.gz
mxg2im7a1#
您可以初始化 FileSystem 使用各自的hadoop配置:
FileSystem
FileSystem.get(conf);
它有一个方法 open 原则上应该允许您读取原始数据。
open
1条答案
按热度按时间mxg2im7a1#
您可以初始化
FileSystem
使用各自的hadoop配置:它有一个方法
open
原则上应该允许您读取原始数据。