我有一个两列的Hive表。两列的类型都是字符串。一个是简单的客户端id,另一个是以命令分隔的项id字符串。可以有多个行具有相同的客户机id,但项目id字符串不同。
我想要一个生成两列表的配置单元查询。一个是客户机id,另一个是带有所有唯一项id的逗号分隔字符串。
原表数据:
Client Id Item Ids
1 1,2,3,4
2 3,4,6,8
4 4,5,1,3
2 3,4,7,8
3 5,6,8,2
4 7,8,9,4
查询应生成此结果
Client Id Item Ids
1 1,2,3,4
2 3,4,7,6,8
4 4,5,1,3,7,8,9
3 5,6,8,2
1条答案
按热度按时间kgqe7b3p1#
使用
explode()
以及collect_set()
要获得唯一集,请使用concat_ws
和分组依据Client_id
:输出: