我正在使用pig版本8,如何使用xpath()提取xml的特定元素?我尝试了多种方法,但都没有成功请建议

iecba09b  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(297)
<CATALOG>
<BOOK>
<TITLE>Hadoop Defnitive Guide</TITLE>
<AUTHOR>Tom White</AUTHOR>
<COUNTRY>US</COUNTRY>
<COMPANY>CLOUDERA</COMPANY>
<PRICE>24.90</PRICE>
<YEAR>2012</YEAR>
</BOOK>
</CATALOG>

这是我正在使用的xml。
我只想提取title和company元素。有没有任何方法可以使用regex或xpath()提取它们;

iovurdzv

iovurdzv1#

首先需要对xml进行如下格式化:

<CATALOG> 
      <BOOK> 
        <TITLE>Hadoop Defnitive Guide</TITLE>  
        <AUTHOR>Tom White</AUTHOR>  
        <COUNTRY>US</COUNTRY>  
        <COMPANY>CLOUDERA</COMPANY>  
        <PRICE>24.90</PRICE>  
        <YEAR>2012</YEAR> 
      </BOOK> 
    </CATALOG>

然后你可以像这样提取这些元素:

/CATALOG/BOOK/*[self::title or self::company]

有关轴的更多信息,请参见:http://www.w3schools.com/xsl/xpath_axes.asp

相关问题