获取正则表达式以解析表列的xml格式的数据

w6mmgewl  于 2021-06-28  发布在  Hive
关注(0)|答案(1)|浏览(198)

我有一个表,其中包含一列xml格式的数据。我要做的是解析该列中的一些数据。表如下所示:

SalesID | SalesDetail 
--------|------------------ 
403958  | <SalesCode>4</SalesCode><SalesMessage>Same day shipping to customer in TX<SalesMessage>
453324  | <SalesCode>4</SalesCode><SalesMessage>Customer complained issues at check-out <SalesMessage>

有人能指出使用 Impala 或Hive解析salescode和salesmessage数据的方向吗?
我尝试了多个正则表达式,但结果不是我想要的。任何帮助都将不胜感激!

yyyllmsg

yyyllmsg1#

你可以用 xpath_string 以及 xpath_int :

SELECT xpath_int (SalesDetail, 'SalesCode') as SalesCode,
       xpath_string (SalesDetail, 'SalesMessage') as SalesMessage FROM src;

相关问题