我对Hive中的按排序/按群集分配没有一个清晰的概念
据我所知,当我们在hive中使用distributedbysortby/clusterby时,使用了多个reducer,这样排序速度更快
但是为什么列的排序需要使用减缩器,排序可以通过Map完成,而且不涉及任何聚合函数呢
它是否与我们在创建表时使用的按排序的clustered by有任何关系
我面临的问题是,
按订单\项目\订单\ id限制10从订单\项目群中选择*;
对于上面的查询,即使我使用命令,
设置mapreduce.job.reduce=4
仍然是1
你可以在这里看到,即使你的零钱减少计数,它仍然是1
虽然有一个帖子与此相关,但给出的答案并不能消除我的疑虑。。提前谢谢。。。。
暂无答案!
目前还没有任何答案,快来回答吧!