在运行配置单元Map联接时,Map程序是如何决定的?

r3i60tvu  于 2021-06-26  发布在  Hive
关注(0)|答案(1)|浏览(238)

这在apache hive的wiki页面上有说明:
如果要联接的表中只有一个较小,则联接可以作为仅Map作业执行。查询
SELECT /*+ MAPJOIN(b) */ a.key, a.value FROM a JOIN b ON a.key = b.key 不需要减速器。对于a的每个Map器,b被完全读取。
如果一个被连接的表很小,而另一个表足够大,足以占用单个Map器的资源,那么如何确定Map器的数量?那么连接会自动变成非Map连接吗?

t1qtbnec

t1qtbnec1#

另一张table不能太大。
它正在通过Map器进行流式处理。

相关问题