我有自己的hdfs文件格式,如下所示 <bytes_for_size_of_header><header_as_protobuf_bytes><bytes_for_size_of_a_record><record_as_protobuf_bytes>...
我们可以看到,文件中的每个记录都使用协议缓冲区进行编码
我一直在尝试用hive读取这些文件,我想我应该创建一个inputformat,一个来自mapreduceapi旧版本的记录读取器,还有一个serde来解码protobuf记录。
以前有人这样做过吗,我走的方向对吗?任何帮助都将不胜感激。
1条答案
按热度按时间gcxthw6b1#
是的,你走的方向是对的。这正是
InputFormat
,RecordReader
,和SerDe
摘要是给你的。你应该能找到很多例子。