因为map side join不能分割输入文件,所以我改为减少side join以提高性能。最后性能得到了改善,但我得到了一千分之一的数据。我已经挖了好几天了,但还是没弄明白。map-side连接过程如下:userid(map key)==>reportid(reduce key)==>output
reduce端使用两个emr:emr1:userid(map key)==>userid(reduce key)此作业通过userid完成连接emr2:userid(map key)==>reportid(reducekey)==>output感谢任何建议!
暂无答案!
目前还没有任何答案,快来回答吧!