mapreduce—在hadoop中从依赖于另一个文件的文件访问信息

7cwmlq89  于 2021-06-04  发布在  Hadoop
关注(0)|答案(2)|浏览(355)

我想写一个mapreduce程序,它以两个文件作为输入(例如:file1:account details file2:transaction details),并从file1获取帐户详细信息,从file2访问相应的帐户事务详细信息。这里的文件是依赖的,如果我们想访问事务详细信息,我们需要特定的帐户详细信息..假设两个文件都在一个文件夹中,并且该文件夹作为输入传递给map reduce程序。
提前谢谢

dauxcl2d

dauxcl2d1#

这是hadoop中分布式缓存特性的典型用例。使用较大的文件作为mapreduce作业的输入,并将较小的文件放在分布式缓存中。这样您就可以访问Map程序代码中两个文件的数据。
有关如何使用它的更多信息,请参阅分布式缓存api。

bgibtngc

bgibtngc2#

这两个数据集必须连接起来,这是一个非常常见的场景。查看mapreduce设计模式手册,了解如何进行连接。下面是相应的连接代码。另外,使用mapreduce检查连接周围的不同模式的数据密集型文本处理。

相关问题