如何在组内按顺序排序在Hive中额外使用concate\u ws和collect\u set

pftdvrlh 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(449)

我有这种格式的数据，出于安全考虑，我把**放在短语栏中。这基本上是党的一句话。

这是一个特定id的有序对话。
我想达到这样的结果：再次*而不是句子。

我使用的查询可以实现以下目标：

select tmp.interaction_id,collect_set(tmp.final) from
(select interaction_id,concat_ws(':--  ',party,phrase) as 
final,start_offset,end_offset  from aads_piim.A608232_Myvoice_wt_transcript
 where interaction_id=26951370
order by start_offset,end_offset) as tmp
group by tmp.interaction_id;

在这里我可以做这件事，因为我排序只有一个id。然后对话是正确的顺序。比如代理和客户序列。我有大约40万张这样的唱片。我想为他们做同样的事。我使用的查询是：

create table aads_piim.a608232_myvoice_transcript_combined as
select tmp.interaction_id,collect_set(tmp.final) as final_trans from
(select interaction_id,concat_ws(':--  ',party,phrase) as 
final,start_offset,end_offset  from aads_piim.A608232_Myvoice_wt_transcript 
order by start_offset,end_offset) as tmp
group by tmp.interaction_id;

但在这里，排序时考虑的是所有ID。我的问题是如何在ids中排序。意味着在本例中，如何按id分组并按特定id的偏移量列排序。

sql hadoop Hive

来源：https://stackoverflow.com/questions/47045486/how-to-order-by-within-group-with-additional-use-of-concate-ws-and-collect-set

1条答案

按热度按时间

ncgqoxb01#

首先按交互id排序，然后按偏移量排序。

select interaction_id,concat_ws(':--  ',party,phrase) as final,start_offset,end_offset  
from aads_piim.A608232_Myvoice_wt_transcript 
order by interaction_id,start_offset,end_offset

赞(0）回复(0）举报 2021-06-02

我来回答

如何在组内按顺序排序在Hive中额外使用concate\u ws和collect\u set

1条答案

相关问题

热门标签

最新问答