我想写一个mapreduce程序,它以两个文件作为输入(例如:file1:account details file2:transaction details),并从file1获取帐户详细信息,从file2访问相应的帐户事务详细信息。这里的文件是依赖的,如果我们想访问事务详细信息,我们需要特定的帐户详细信息..假设两个文件都在一个文件夹中,并且该文件夹作为输入传递给map reduce程序。提前谢谢
dauxcl2d1#
这是hadoop中分布式缓存特性的典型用例。使用较大的文件作为mapreduce作业的输入,并将较小的文件放在分布式缓存中。这样您就可以访问Map程序代码中两个文件的数据。有关如何使用它的更多信息,请参阅分布式缓存api。
bgibtngc2#
这两个数据集必须连接起来,这是一个非常常见的场景。查看mapreduce设计模式手册,了解如何进行连接。下面是相应的连接代码。另外,使用mapreduce检查连接周围的不同模式的数据密集型文本处理。
2条答案
按热度按时间dauxcl2d1#
这是hadoop中分布式缓存特性的典型用例。使用较大的文件作为mapreduce作业的输入,并将较小的文件放在分布式缓存中。这样您就可以访问Map程序代码中两个文件的数据。
有关如何使用它的更多信息,请参阅分布式缓存api。
bgibtngc2#
这两个数据集必须连接起来,这是一个非常常见的场景。查看mapreduce设计模式手册,了解如何进行连接。下面是相应的连接代码。另外,使用mapreduce检查连接周围的不同模式的数据密集型文本处理。