我目前正在努力理解 Salt
-反作用 Skew
. 不幸的是,我找不到足够的信息来帮助我理解聚合上下文中的盐渍概念(例如。 Group By
& Window
等)在spark sql中。
到目前为止,我已经解释了盐渍聚合需要两次通过。因此,我将下面的代码片段放在一起,表示第一个过程。然而,我无法从那里开始。有人能帮我继续使用sparksql查询吗?
第一关:
create temporary view salt1
as
select cust, item, cast(rand() * 10 as int) as salt
from tab1;
create temporary view salt2
as
select cust, item
from (select cust,
item,
row_number() over (partition by salt, cust order by purch) as row_num
from salt1
)
where row_num = 1;
谢谢你的帮助。
暂无答案!
目前还没有任何答案,快来回答吧!