hadoop—使用HiveXMLSerde将xml解析为多个表

t30tvxxf  于 2021-05-31  发布在  Hadoop
关注(0)|答案(1)|浏览(384)

我有一堆结构化的xml文件要插入到配置单元中。结构看起来有点像:

<Object>
    <property0>propertyValue</property0>
    <FirstNestedObjects>
        <FirstNestedObject>
            <property1>propertyValue</property1>
        </FirstNestedObject>
    </FirstNestedObjects>

    <SecondNestedObjects>
        <SecondNestedObject>
            <property2>propertyValue</property2>
        </SecondNestedObject>
    </SecondNestedObjects>
</Object>

我希望将此xml解析为3个表:objects、firstnestedobjects、secondnestedobjects
每个表的列都是对象内部的属性。我希望这样做,这样我就可以对聚合的FirstNestedObject和SecondNestedObject进行分析。
我试着看了他们的文档:https://github.com/dvasilen/hive-xml-serde/wiki/xml-data-sources 但是,它只显示了如何将信息解析到单个表中。
你知道我该怎么处理这个问题吗?

bybem2ql

bybem2ql1#

一种可能的解决方案是创建一个包含3个分区的分区表。在查询中,可以将数据写入所需的分区。因此,最终您将有3个单独的目录,您可以在其中创建表来单独查询它们。

相关问题