hive命令执行not in子句

xt0899hw  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(377)

我有两张table,tab1和tab2。

tab1(T1)  tab2(T2)
a1         b1
b1         c1
c1         f1
d1         g1

我从表t1中寻找t2中不存在的值。在这种情况下,输出应该是 a1 d1 我尝试了以下查询,但无法获得正确的解决方案。

select distinct tab1.T1 from tab1 left semi join tab2 on (tab1.T1!=tab2.T2);
wqsoz72f

wqsoz72f1#

SELECT t1.str
FROM tab1 t1 
LEFT OUTER JOIN tab2 t2 ON t1.str = t2.str
WHERE t2.str IS NULL;

结果:

OK
a1
d1

“why is the t2.str is null condition there”:左外联接确保第一个表中的所有值都包含在结果中。那么当第二个表中没有值时会发生什么:在这种情况下,第二个表中的所有列都报告为null。
因此,在上述情况下,我们正精确地搜索第二个表项丢失的情况—因此我们:
从表2中选择一个never-empty(aka not null)列。
所以:数字是一个经常出现的列吗?如果没有,请选择另一个
指定条件“table1 alias”。“table1 never null column”=null。这意味着记录实际上不存在于连接条件中,因此我们发现记录只存在于表1中。

相关问题