xmlinputformat

kulphzqa  于 2021-06-24  发布在  Flink
关注(0)|答案(1)|浏览(364)

除了flink之外,还有什么类似于mahout的xmlinputformat吗?
我有一个很大的xml文件,我想提取特定的元素。在我的情况下,这是一个维基百科垃圾场,我需要得到所有 <page> 标签。
i、 如果我有档案

<mediawiki>
  <siteinfo>...</siteinfo>
  <page>...</page>
  <page>...</page>
  <page>...</page>
</mediawiki>

我想把这三张唱片都拿出来 <page>...</page> 在Map绘制器中使用。理想情况下,它应该是有效的xml,这是xpath查询所需要的 /mediawiki/page 会回来的。

92dk7w1h

92dk7w1h1#

mahout的xmlinputformat扩展了hadoop的textinputformat。flink为hadoop InputFormat提供了通用 Package 器,因此也应该支持xmlinputformat。
要使用hadoop inputformats读取数据,可以执行以下操作:

DataSet<Tuple2<LongWritable, Text>> input =
  env.readHadoopFile(new TextInputFormat(), LongWritable.class, Text.class, textPath);

有关详细信息,请参阅文档。

相关问题