我从mongodb(4.0)的bson文件转储创建了一个hive(3.1.2)表。但是,其中一些值为空。
我尝试使用python打印bson的表行。它打印的值是正确的。表示未丢失的值。有没有进一步排除故障的线索?
sql来创建配置单元表。
CREATE EXTERNAL TABLE `tmp_test_status`(
`id` string COMMENT 'frame_id',
`createdAt` INT,
`updatedAt` string,
`task` string)
row format serde 'com.mongodb.hadoop.hive.BSONSerDe'
with serdeproperties('mongo.columns.mapping'='{"id":"_id"}')
stored as inputformat 'com.mongodb.hadoop.mapred.BSONFileInputFormat'
outputformat 'com.mongodb.hadoop.hive.output.HiveBSONFileOutputFormat'
LOCATION
'oss://data-warehouse/hive/warehouse/data.db/tmp_test_status';
===========================================
由python bson lib打印的数据。
{'_id': '00003a02-280d-4e59-8483-a0143e0a3359', 'createdAt': '1557999191951', 'updatedAt': '1557999191951', 'task': 'lane', '__v': 0}
===========================================
我从配置单元表中选择的数据:
00003a02-280d-4e59-8483-a0143e0a3359 NULL NULL lane
093e72ae-206b-4112-ac28-5ba38f9485d0 NULL NULL lane
093ebe41-183c-47b4-ab25-93336875ae10 NULL NULL lane
093ec16b-ba1d-4ddc-90bc-9981342e8071 NULL NULL lane
1条答案
按热度按时间r1zk6ea11#
我自己找到了答案,原因是bson文件的属性名区分大小写,但是hive没有。如果属性名在bson文件中包含大写字母,那么在查询时hive将返回null。只需按为我工作的表属性Map属性名即可。