在阅读hadoop in action一书时,我遇到了几个关于简化联接的类,其中一些是datajoinmapperbase、taggedmapoutput、datajoinreducerbase。但是当我在google上搜索hadoop上的joins概念时,没有一个是基于上面指定的类的,而是实现了自己的逻辑,很多是基于多个输入的。现在我的问题是,在hadoop上哪种连接方式更好?可以做些什么来获得更好的结果?对此有什么建议吗?
juud5qan1#
你可以试试pangool库,它使减少边连接非常容易。Map侧连接只是一个内存查找。
1条答案
按热度按时间juud5qan1#
你可以试试pangool库,它使减少边连接非常容易。Map侧连接只是一个内存查找。