hive:精确重复记录的识别

vq8itlhq  于 2021-06-24  发布在  Hive
关注(0)|答案(1)|浏览(318)

我有个要求。
我有一个配置单元表,它有200多列。
现在,在删除所有相同的重复记录之后,我必须编写一个insert查询来将数据加载到另一个配置单元表中。
我知道我可以通过在()上使用第()行来实现它。
代码段

Insert into table target 
Select col1,col2..col200 
from
(
Select col1,col2...col200,row_number () over ( partition by col1,col2...col200 order by null ) as rn from source 
) a 
where 
rn=1

但这会很长,因为需要多次编写所有200列的名称,
有没有更简单的解决办法?
谢谢你的建议。

ryoqjall

ryoqjall1#

你可以用 select distinct :

Insert into table target 
    Select distinct col1,col2..col200 
    from source ;

相关问题