我在弹性Map上有一组配置单元表,其中有一些重复的元素。有没有一种简单的方法来消除这些表的重复数据?我们想到的是转储到一组pig可消化的文件中,启动pig并使用一个独特的查询来重新生成表。不过,这似乎需要做很多工作,所以我想知道是否有更简单的方法。
jslywgbw1#
一个查询应删除重复项:
INSERT OVERWRITE TABLE table SELECT DISTINCT Col1, Col2 , ..., ColN FROM table
6ss1mwsb2#
如果需要对一个唯一的列(如客户、主机、产品、位置)进行重复数据消除,也可以将其加入到自身中。如果你得到多个不同时间戳的条目或者其他什么东西,这会很有用。
INSERT OVERWRITE TABLE my_table select a.* from my_table a inner join ( select min(id) as id from my_table group by unique_column ) b on ( a.id = b.id );
2条答案
按热度按时间jslywgbw1#
一个查询应删除重复项:
6ss1mwsb2#
如果需要对一个唯一的列(如客户、主机、产品、位置)进行重复数据消除,也可以将其加入到自身中。
如果你得到多个不同时间戳的条目或者其他什么东西,这会很有用。