我想知道在hadoop环境中是否有任何工具可以用来解析xml文件。我知道如果没有可用的工具,使用MapReduce我们可以解析xml文件,而哪种语言scala、java或pig的解析更好?请帮忙。
7gyucuyw1#
hadoop环境通常会有java可用。因此,我将使用“用于xml绑定的java体系结构”或jaxb。它相对容易使用,并且具有包括以下主要方法的发展战略:您有其他人定义的要在java中访问的xml。您有想要用xml表示的java数据结构。它有很多特性,但是不要担心添加所有的铃铛和口哨,除非你需要它们。它也相当快。你可以在这里找到它的学习路径。scala也是一个很好的选择,但是它的学习曲线比较高(如果您已经了解java并且对基于lambda的语言有一定的了解,那么学习曲线就没有那么高)。这些文档是合理的,但有时它只是缺少可用于java的文档。scala将是我的第二个选择,因为我的团队没有在scala中完成任务的记录。这并不难,对于某些问题,scala要容易得多,但是如果没有一点scala经验,人们往往会利用非scala方法在scala中解决问题。pig是一种我经验有限的语言,所以我会保留评论。
1条答案
按热度按时间7gyucuyw1#
hadoop环境通常会有java可用。因此,我将使用“用于xml绑定的java体系结构”或jaxb。
它相对容易使用,并且具有包括以下主要方法的发展战略:
您有其他人定义的要在java中访问的xml。
您有想要用xml表示的java数据结构。
它有很多特性,但是不要担心添加所有的铃铛和口哨,除非你需要它们。它也相当快。
你可以在这里找到它的学习路径。
scala也是一个很好的选择,但是它的学习曲线比较高(如果您已经了解java并且对基于lambda的语言有一定的了解,那么学习曲线就没有那么高)。这些文档是合理的,但有时它只是缺少可用于java的文档。
scala将是我的第二个选择,因为我的团队没有在scala中完成任务的记录。这并不难,对于某些问题,scala要容易得多,但是如果没有一点scala经验,人们往往会利用非scala方法在scala中解决问题。
pig是一种我经验有限的语言,所以我会保留评论。