使用mapreduce解析多个xml文件数据

h43kikqp  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(321)

我想解析多个结构如下的xml文件

<parent tag property1='p1' xmlns:'sm link'>
<Tag 1> tag 1 value </Tag 1>
<Tag 2> tag 2 value </Tag 2>
<Tag 3>
<Tag 3.1> tag 3.1 value </Tag 3.1>
</Tag 3>
</parent tag>

我想编写一个map reduce代码,并将解析后的数据转储到hdfs(hadoop1.0)中。以及如何在一个示例中传递多个苍蝇。
任何帮助都是好的。提前谢谢。

rfbsl7qr

rfbsl7qr1#

你可以用mahaout的 XmlInputFormat 用于读取xml数据。
在driver类中设置这些配置设置。

conf.set("xmlinput.start","<root")` 
conf.set("xmlinput.end", "</root>");
job.setInputFormatClass(XmlInputFormat.class);

下载mahaout的jar文件。
将每个文件视为一个字符串,并进行处理。
要作为输入运行多个文件,请将所有文件放在一个文件夹中,并将输入路径指定为文件夹路径。

相关问题