我有一个类似这样的输入数据,希望使用pig脚本处理这些数据。
USER_ID CLICK_NO PAGE_NAME CLICK_TIME
1 1 PAGE1 <time from epoch as long>
1 2 PAGE2 <time from epoch as long>
1 3 PAGE3 <time from epoch as long>
在这里,我得到的用户id和时间,当他/她在网站上点击每个链接。我想找出他/她在网站上花费的总时间。简言之,我想按用户id分组,并按“否”排序,这很简单,但我不知道是否可以访问下一行,并在两次单击之间找到不同之处。如果我能做到这一点,那么我就可以找到所有时间差的总和,找到在网站上花费的总时间。有人能帮忙吗?
我可以发布代码片段,但按用户id分组和按单击否排序非常简单。
1条答案
按热度按时间2ledvvac1#
差额之和等于
MAX(click_time) - MIN(click_time)
在按分组之后user_id
. pig中有一些函数。https://pig.apache.org/docs/r0.15.0/func.html#maxhttps://pig.apache.org/docs/r0.15.0/func.html#min