我正在尝试在配置单元中导入以下json
[{“时间”:1521115600,“纬度”:44.3959,“经度”:26.1025,“海拔”:53,“pm1”:21.70905,“pm25”:16.5,“pm10”:14.60085,“气体1”:0,“气体2”:0.12,“气体3”:0,“气体4”:0,“温度”:零,“压力”:0,“湿度”:0,“噪音”:0},{“时间”:1521115659,“纬度”:44.3959,“经度”:26.1025,“海拔”:53,“pm1”:24.34045,“pm25”:18.5,“pm10”:16.37065,“气体1”:0,“气体2”:0.08,“gas3”:0,“gas4”:0,“温度”:null,“压力”:0,“湿度”:0,“噪音”:0},{“时间”:1521115720,“纬度”:44.3959,“经度”:26.1025,“海拔”:53,“pm1”:23.6826,“pm25”:18,“pm10”:15.9282,“gas1”:0,“gas2”:0,“gas3”:0,“gas4”:0,“温度”:null,“压力”:0,“湿度”:0,“噪音”:0},{“时间”:1521115779,“纬度”:44.3959,“经度”:26.1025,“海拔”:53,“pm1”:25.65615,“pm25”:19.5,“pm10”:17.25555,“气体1”:0,“气体2”:0.04,“气体3”:0,“气体4”:0,“温度”:零,“压力”:0,“湿度”:0,“噪音”:0}]
CREATE TABLE json_serde (
s array<struct<time: timestamp, latitude: string, longitude: string, pm1: string>>)
ROW FORMAT SERDE 'org.openx.data.jsonserde.JsonSerDe'
WITH SERDEPROPERTIES (
'mapping.value' = 'value'
)
STORED AS TEXTFILE
location '/user/hduser';
导入有效,但如果我尝试
Select * from json_serde;
它将从hadoop/user/hduser上的每个文档中只返回每个文件的第一个元素。
有一个很好的关于使用json数组的文档??
4条答案
按热度按时间yqlxgs2m1#
如果我可以建议你另一种方法来加载整个
JSON
将字符串作为String
外部表中的数据类型。唯一的限制是LINES TERMINATED BY
适当地。e、 g.如果您可以将每个json放在一行中,那么您可以创建如下表:例如
使用Hive
get_json_object
提取单个列。此命令支持基本xPath
比如对json字符串的查询。如果json\u数据列有以下json字符串
下面的查询获取
退货
amy
这样你就可以提取每一个json
元素作为表中的列。z5btuh9x2#
您提供的json不正确。json总是以大括号开头
"{"
最后是一个大括号"}"
. 所以,首先要注意的是你的json是错误的。您的json应该如下所示:
第二件事是您已经将“time”字段的数据类型声明为timestamp。但是数据(1521115600)是以毫秒为单位的。时间戳数据类型需要yyyy-mm-dd hh:mm:ss[.fffffff]格式的数据。
因此,您的数据最好采用以下格式:
{“myjson”:[{“time”:“1970-01-18 20:01:55”,“纬度”:44.3959,“经度”:26.1025,“海拔”:53,“pm1”:21.70905,“pm25”:16.5,“pm10”:14.60085,“gas1”:0,“gas2”:0.12,“gas3”:0,“gas4”:0,“温度”:空,“压力”:0,“湿度”:0,“噪音”:0},“time”:“1970-01-18 20:01:55”,“纬度”:44.3959,“经度”:26.1025,“海拔”:53,“pm1”:24.34045,“pm25”:18.5,“pm10”:16.37065,“gas1”:0,“gas2”:0.08,“gas3”:0,“gas4”:0,“温度”:null,“压力”:0,“湿度”:0,“噪音”:0},{“时间”:1970-01-18 20:01:55,“纬度”:44.3959,“经度”:26.1025,“海拔”:53,“pm1”:23.6826,“pm25”:18,“pm10”:15.9282,“gas1”:0,“gas2”:0,“gas3”:0,“gas4”:0,“温度”:null,“压力”:0,“湿度”:0,“噪音”:0},{“时间”:“1970-01-18 20:01:55”,“纬度”:44.3959,“经度”:26.1025,“海拔”:53,“pm1”:25.65615,“pm25”:19.5,“pm10”:17.25555,“气体1”:0,“气体2”:0.04,“气体3”:0,“气体4”:0,“温度”:零,“压力”:0,“湿度”:0,“噪音”:0}}
现在,您可以使用query从表中选择记录。
如果希望每个值分别以表格格式显示,可以使用下面的查询。
上述查询的结果如下:
美丽的。是吗?
快乐学习。
l3zydbqr3#
如果您不能使用更新您的输入文件格式,您可以直接导入spark并使用它,一旦数据完成写回配置单元表。
或者,您可以直接配置配置单元表
lymnna714#
你有一个结构数组。你贴的只有一行。
如果要查看所有元素,需要使用inline
或者,您需要重写您的文件,以便该数组中的每个对象都是文件行中的单个json对象
另外,我在您的数据中没有看到值字段,所以我不确定您在serde属性中Map了什么