正在尝试将xml数据加载到配置单元中错误地解释了行返回

6tdlim6h  于 2021-06-04  发布在  Hadoop
关注(0)|答案(1)|浏览(234)

我在配置单元中使用以下查询

--Load xml data to table
DROP table xmltable;
Create TABLE xmltable(xmldata string) STORED AS TEXTFILE;
LOAD DATA lOCAL INPATH '/home/user/data-input.xml' OVERWRITE INTO TABLE xmltable;

碰巧的是,我的xml文件(其中一个包含一个根元素)被加载并创建了8行,而不是预期的一行。这是因为我认为在我的文件中有行返回。。。有没有什么方法可以避免(一些解决方法),或者我应该在手动使用其他工具之前预处理我的文件(在这里寻找建议)
谢谢!

5cnsuln7

5cnsuln71#

虽然hive中有“lines terminated by”构造,但它只支持换行。所以不,没有简单的解决方法。你要么要对文件进行预处理,要么要使用专门用来处理xml文件的udf(请查看stephanie链接的问题的答案)

相关问题