我有几个月的数据从一个域存储在hdfs的avro容器文件。当然,每个文件都有该文件中所有数据的模式。如何使用hive或pig处理所有数据?似乎hive和pig都需要某种形式的表结构定义的avsc文件。i、 e.即使我使用avro工具从每个文件中提取avsc,我也必须使用不同的avsc文件加载每个数据集,并且我不能使用一个作业或ddl+查询处理所有数据集。hive和pig不可能在运行时基于它正在处理的avro容器文件提取avsc吗?它是否已经实施,而我没有发现它或太难实施?
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!