我有一堆结构化的xml文件要插入到配置单元中。结构看起来有点像:
<Object>
<property0>propertyValue</property0>
<FirstNestedObjects>
<FirstNestedObject>
<property1>propertyValue</property1>
</FirstNestedObject>
</FirstNestedObjects>
<SecondNestedObjects>
<SecondNestedObject>
<property2>propertyValue</property2>
</SecondNestedObject>
</SecondNestedObjects>
</Object>
我希望将此xml解析为3个表:objects、firstnestedobjects、secondnestedobjects
每个表的列都是对象内部的属性。我希望这样做,这样我就可以对聚合的FirstNestedObject和SecondNestedObject进行分析。
我试着看了他们的文档:https://github.com/dvasilen/hive-xml-serde/wiki/xml-data-sources 但是,它只显示了如何将信息解析到单个表中。
你知道我该怎么处理这个问题吗?
1条答案
按热度按时间bybem2ql1#
一种可能的解决方案是创建一个包含3个分区的分区表。在查询中,可以将数据写入所需的分区。因此,最终您将有3个单独的目录,您可以在其中创建表来单独查询它们。