如何使用不同版本的模式处理avro容器数据?

dly7yett  于 2021-06-02  发布在  Hadoop
关注(0)|答案(0)|浏览(268)

我有几个月的数据从一个域存储在hdfs的avro容器文件。当然,每个文件都有该文件中所有数据的模式。如何使用hive或pig处理所有数据?似乎hive和pig都需要某种形式的表结构定义的avsc文件。i、 e.即使我使用avro工具从每个文件中提取avsc,我也必须使用不同的avsc文件加载每个数据集,并且我不能使用一个作业或ddl+查询处理所有数据集。
hive和pig不可能在运行时基于它正在处理的avro容器文件提取avsc吗?它是否已经实施,而我没有发现它或太难实施?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题