如何用hive读取定制的hdfs文件

ncecgwcz  于 2021-05-30  发布在  Hadoop
关注(0)|答案(1)|浏览(375)

我有自己的hdfs文件格式,如下所示 <bytes_for_size_of_header><header_as_protobuf_bytes><bytes_for_size_of_a_record><record_as_protobuf_bytes>... 我们可以看到,文件中的每个记录都使用协议缓冲区进行编码
我一直在尝试用hive读取这些文件,我想我应该创建一个inputformat,一个来自mapreduceapi旧版本的记录读取器,还有一个serde来解码protobuf记录。
以前有人这样做过吗,我走的方向对吗?任何帮助都将不胜感激。

gcxthw6b

gcxthw6b1#

是的,你走的方向是对的。这正是 InputFormat , RecordReader ,和 SerDe 摘要是给你的。你应该能找到很多例子。

相关问题