用javamahoutxmlinputformat(hadoop)解析xml

beq87vna  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(222)

我已经找到了一种在hadoop中使用java解析xml文件的方法
我找到了这个链接
它展示了如何使用xmlinputformat类来解析xml
但正如有人在评论中提到的:“hdfs将文件拆分为64MB的块,程序将丢失在一个块的结尾和下一个块的开头之间划分的记录。”
对于exmaple,文件如下所示:

<Details>
<ID> 12346 </ID>
<age> 30 </age>
<FirstName> "bla bla me"</FirstName>
<LastName> "say my name"</LastName>
</Details>

那么我该怎么处理xml的拆分,防止数据丢失呢?
或者换句话说,当一个xml可能被分成两个不同的节点时,它是如何处理的?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题