从bson文件创建配置单元表时列值变为null

30byixjq  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(628)

我从mongodb(4.0)的bson文件转储创建了一个hive(3.1.2)表。但是,其中一些值为空。
我尝试使用python打印bson的表行。它打印的值是正确的。表示未丢失的值。有没有进一步排除故障的线索?
sql来创建配置单元表。

CREATE EXTERNAL TABLE `tmp_test_status`(
  `id` string COMMENT 'frame_id', 
  `createdAt` INT, 
  `updatedAt` string, 
  `task` string)
row format serde 'com.mongodb.hadoop.hive.BSONSerDe'
with serdeproperties('mongo.columns.mapping'='{"id":"_id"}')
stored as inputformat         'com.mongodb.hadoop.mapred.BSONFileInputFormat'
outputformat 'com.mongodb.hadoop.hive.output.HiveBSONFileOutputFormat'
LOCATION
  'oss://data-warehouse/hive/warehouse/data.db/tmp_test_status';

===========================================
由python bson lib打印的数据。

{'_id': '00003a02-280d-4e59-8483-a0143e0a3359', 'createdAt': '1557999191951', 'updatedAt': '1557999191951', 'task': 'lane', '__v': 0}

===========================================
我从配置单元表中选择的数据:

00003a02-280d-4e59-8483-a0143e0a3359    NULL    NULL    lane
093e72ae-206b-4112-ac28-5ba38f9485d0    NULL    NULL    lane
093ebe41-183c-47b4-ab25-93336875ae10    NULL    NULL    lane
093ec16b-ba1d-4ddc-90bc-9981342e8071    NULL    NULL    lane
r1zk6ea1

r1zk6ea11#

我自己找到了答案,原因是bson文件的属性名区分大小写,但是hive没有。如果属性名在bson文件中包含大写字母,那么在查询时hive将返回null。只需按为我工作的表属性Map属性名即可。

with serdeproperties('mongo.columns.mapping'='{"id":"_id", "createdAt": "createdAt", "updatedAt": "updatedAt", "reLabeled1" : "reLabeled1", "isValid": "isValid"}')

相关问题