如果列数据类型不完全匹配,则导出导入配置单元表的问题

z6psavjg  于 2021-06-01  发布在  Hadoop
关注(0)|答案(0)|浏览(266)

我需要导出具有 RCFile 作为hdfs和post的存储格式,我需要将这些数据导入到具有 Avro 作为存储格式。
因为,avro不支持 timestamp 以及 decimal 类型。因此,我需要使用 String 以及 Float 这些列的数据类型。这种方法在导出和要导入的配置单元表模式之间带来了一些不匹配。我尝试导入一个现有配置单元表,但由于架构不匹配问题,无法成功导入数据。
我正在考虑开发一种自动化的方法,允许定义的bigquery表集由它们相应的 Avro 源文件。现在,这些文件应该可以在 GCS 水桶。这个可用性将由我的自动化过程的一部分来保证,这将允许加载相同的一组数据 External 具有 Avro 作为存储格式和 GCS Bucket 作为存储位置。
因此,整个过程可以概括为:hive中的表a->导出到hdfs位置->导入到hive中的表b,以avro作为存储类型,gcs作为存储位置->加载bigquery表c和上一步生成的avro文件
不管这些数据类型是否不匹配,有什么方法可以让这个导出-导入机制正常工作吗?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题