xml—xmlinputformat的拆分是否总是包含元素的起始和结束标记?

2hh7jdfx  于 2021-05-30  发布在  Hadoop
关注(0)|答案(1)|浏览(306)

我想知道一个包含多个拆分的xml文件是如何处理的。谁负责将xml元素的起始标记和结束标记放在同一个分割中?是xmlinputformat的责任还是在hdfs上创建xml文件的程序的责任?
最好的,泡菜

cyvaqqii

cyvaqqii1#

xmlinputformat要求您指定开始和结束标记的用法 xmlinput.start 以及 xmlinput.end 分别。一旦为xml指定了开始和结束标记,那么xmlinputforamt的recordreader就可以找出记录边界。
为了便于参考,请看一下xmlinputformat的代码。
因此,在hdfs中创建xml文件的程序不必做任何事情。

相关问题