我需要导出具有 RCFile
作为hdfs和post的存储格式,我需要将这些数据导入到具有 Avro
作为存储格式。
因为,avro不支持 timestamp
以及 decimal
类型。因此,我需要使用 String
以及 Float
这些列的数据类型。这种方法在导出和要导入的配置单元表模式之间带来了一些不匹配。我尝试导入一个现有配置单元表,但由于架构不匹配问题,无法成功导入数据。
我正在考虑开发一种自动化的方法,允许定义的bigquery表集由它们相应的 Avro
源文件。现在,这些文件应该可以在 GCS
水桶。这个可用性将由我的自动化过程的一部分来保证,这将允许加载相同的一组数据 External
具有 Avro
作为存储格式和 GCS Bucket
作为存储位置。
因此,整个过程可以概括为:hive中的表a->导出到hdfs位置->导入到hive中的表b,以avro作为存储类型,gcs作为存储位置->加载bigquery表c和上一步生成的avro文件
不管这些数据类型是否不匹配,有什么方法可以让这个导出-导入机制正常工作吗?
暂无答案!
目前还没有任何答案,快来回答吧!