用hadoopmapreduce处理xml

pnwntuvh 于 2021-05-30 发布在 Hadoop

关注(0)|答案(2)|浏览(403)

我想加载和解析一些PB的xml数据。在对如何在hadoop中处理xml做了大量的研究之后，我知道xml必须在map reduce中作为整个文件进行处理。
如果我将整个xml作为一个单独的输入分割提供给MapReduce，那么它就不会利用hadoop的分布式和并行处理特性，因为只有一个Map器在进行处理。
我的理解正确吗？如何克服这个问题？
请建议

hadoop mapreduce xml xml-parsing

来源：https://stackoverflow.com/questions/27519784/processing-xml-with-hadoop-mapreduce

2条答案

按热度按时间

0x6upsns1#

如果只有一个PB大小的xml数据块，则会出现问题。更可能的情况是，您有数百万或数十亿个单独的xml记录。如果是这样的话，您可以使用一种非常简单的方法：创建数百万个xml文件，这些文件的大小与hdfs系统的块大小大致相同（稍微小一点）。然后编写一组mapreduce作业，其中第一个Map器提取xml数据并输出任何有用的（名称、值）对，reducer从需要关联的各种xml文件中收集所有不同的（名称）对。
如果xml数据集随着时间的推移而变化，您可能希望查看对流数据集的支持。

赞(0）回复(0）举报 2021-05-30

vxqlmq5t2#

您可以尝试使用mahout的xmlinputformat。xmlinputformat负责使用指定的开始和结束标记计算xml输入文件中的记录边界。
您可以使用此链接作为如何使用xmlinputformat解析xml文件的参考。

赞(0）回复(0）举报 2021-05-30