左侧连接与配置单元中的内部连接——多个连接的内部结构和性能,Map连接

3duebb1j  于 2021-06-03  发布在  Hadoop
关注(0)|答案(0)|浏览(241)

有人知道通过hive.auto.convert.join=true启用Map连接时,左连接与内部连接在配置单元中的性能是否有差异吗?
我问的原因是,佩尔https://cwiki.apache.org/confluence/display/hive/languagemanual+joinoptimization#languagemanualjoinoptimization-联合优化
外部连接提供了更多的挑战。因为map join操作符只能流式处理一个表,所以流式处理的表必须是需要所有行的表。对于左外联接,这是联接左侧的表;对于右侧的外部联接、右侧的表等,这意味着即使内部联接可以转换为Map联接,也不能转换外部联接。只有当需要流化的表之外的表可以适合大小配置时,才能转换外部联接。
这似乎是在说(a)外部连接根本不能转换为内部连接,(b)只有在不需要流式处理的表是“左连接”表的情况下才能转换。有人知道是哪一个吗?
另外,内部连接和左连接在性能上是否有区别?通常,在配置单元中,就像在sql中一样?当涉及多个左连接时,这种差异是否会变得更大(或者首先开始存在)?我问的原因是我正在考虑添加几个虚拟条目到一些左连接的查找表中,以将我的连接转换为内部。。。从直觉上看,它可能会带来不同的性能,但我找不到任何文档或讨论的方式。很好奇是否有人有这方面的经验。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题