我正在hiveql中创建一个表和一列 duplicate_set
应该是一个数组,其中包含来自另一列的列表中的重复元素集 list
. 例如给定一个表
+-----------+-------------------------+----------------------+
| id | list | duplicate_set |
+-----------+-------------------------+----------------------+
| 1 | ["1","2","2","3","3"] | ["2","3"] |
+-----------+-------------------------+----------------------+
| 2 | ["2","2","5","6"] | ["2"] |
+-----------+-------------------------+----------------------+
| 3 | ["2","4","5","6"] | [] |
...
提取重复元素并将它们放入一个集合的最佳方法是什么?是否有任何现有的自定义项?谢谢。
1条答案
按热度按时间a1o7rhls1#
你可以分解数组,计算
row_number
,然后将重复的元素(行数大于1)聚合到集合中:结果: