我是新在Pig,并试图解决一个问题的字数(网站)多行输入(网站)。例如,我的输入数据集具有
输入数据
Email websites
e1 web1 web2 web3 web1 ....
e2 web2 web3 web2 web2 web4 ...
e3 web1 web2 web1 web4 .....
我想要的结果是
Email websites
e1 web1(2) web2(1) web3(1) ....
e2 web2(3) web3(1) web4(1) ...
e3 web1(2) web2(1) web4(1) .....
在我的数据集中,我有将近50000个电子邮件id(用户)
1条答案
按热度按时间dfuffjeb1#
假设电子邮件和网站是分开的标签和网站本身是分开的空间。下面是获得所需输出的分步代码,主要思想是先对网站进行标记化,将其展平,然后进行分组(email,tokenize\u website),生成count,然后通过email进行分组。
倾倒b
现在按(电子邮件、标记化URL)分组并生成计数
倾倒d
现在通过电子邮件分组
倾倒e
附言:我是Pig的新手,所以我的解决方案可能不是最优的。