使用hadoopmapreduce比较两个excel文件

2w3rbyxf  于 2021-05-29  发布在  Hadoop
关注(0)|答案(2)|浏览(335)

我是hadoop和mapreduce的新手。我需要使用mapreduce比较两个excel文件。我必须去mapreduce,因为这些文件的大小将非常大(>10gb)。我的问题是如何从不同的Map器中获取两个不同的输入文件,并在reducer中比较这两个文件。我必须将这个应用程序转换成jar并在amazon emr中运行它。我在web中找不到适合的教程。请给我一些想法来做这件事。

ylamdve6

ylamdve61#

根据您对我的评论的回答,我认为如果您使用纯MapReduce来实现它,应该怎么做-
创建用于读取excel电子表格的自定义inputformat。
作为其中的一部分,您需要recordreader读取excel电子表格并输出单元格位置(例如a1)作为键,其内容作为值。
一旦文件被读取,就需要使用key(即单元格位置)对两个数据集进行内部连接。
加入后,可以比较单元格的内容。
如果您看一看apachepig或级联类的api,它们可以抽象出简单的map-reduce,这可能会很有帮助。
你好,阿米特

q9yhzks0

q9yhzks02#

我认为分布式缓存在您的情况下会很有用。我没有使用大文件的分布式缓存,但请探索,让我知道它是否适合你。

相关问题