在pig脚本中查找两行之间的差异

6ss1mwsb  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(296)

我有一个类似这样的输入数据,希望使用pig脚本处理这些数据。

USER_ID   CLICK_NO  PAGE_NAME   CLICK_TIME
1         1         PAGE1       <time from epoch as long>
1         2         PAGE2       <time from epoch as long>
1         3         PAGE3       <time from epoch as long>

在这里,我得到的用户id和时间,当他/她在网站上点击每个链接。我想找出他/她在网站上花费的总时间。简言之,我想按用户id分组,并按“否”排序,这很简单,但我不知道是否可以访问下一行,并在两次单击之间找到不同之处。如果我能做到这一点,那么我就可以找到所有时间差的总和,找到在网站上花费的总时间。有人能帮忙吗?
我可以发布代码片段,但按用户id分组和按单击否排序非常简单。

2ledvvac

2ledvvac1#

差额之和等于 MAX(click_time) - MIN(click_time) 在按分组之后 user_id . pig中有一些函数。
https://pig.apache.org/docs/r0.15.0/func.html#maxhttps://pig.apache.org/docs/r0.15.0/func.html#min

相关问题