mapreduce中的hadoop连接

00jrzges  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(348)

在阅读hadoop in action一书时,我遇到了几个关于简化联接的类,其中一些是datajoinmapperbase、taggedmapoutput、datajoinreducerbase。
但是当我在google上搜索hadoop上的joins概念时,没有一个是基于上面指定的类的,而是实现了自己的逻辑,很多是基于多个输入的。
现在我的问题是,在hadoop上哪种连接方式更好?可以做些什么来获得更好的结果?对此有什么建议吗?

juud5qan

juud5qan1#

你可以试试pangool库,它使减少边连接非常容易。Map侧连接只是一个内存查找。

相关问题