有没有简单的方法来消除配置单元表的重复数据?

at0kjp5o  于 2021-06-24  发布在  Pig
关注(0)|答案(2)|浏览(277)

我在弹性Map上有一组配置单元表,其中有一些重复的元素。有没有一种简单的方法来消除这些表的重复数据?
我们想到的是转储到一组pig可消化的文件中,启动pig并使用一个独特的查询来重新生成表。不过,这似乎需要做很多工作,所以我想知道是否有更简单的方法。

jslywgbw

jslywgbw1#

一个查询应删除重复项:

INSERT OVERWRITE TABLE table
SELECT DISTINCT Col1, Col2 , ..., ColN FROM table
6ss1mwsb

6ss1mwsb2#

如果需要对一个唯一的列(如客户、主机、产品、位置)进行重复数据消除,也可以将其加入到自身中。
如果你得到多个不同时间戳的条目或者其他什么东西,这会很有用。

INSERT OVERWRITE TABLE my_table
select a.* from my_table a
inner join ( select min(id) as id from my_table group by unique_column ) b on ( a.id = b.id );

相关问题