是否有可能在清管器中获得以下输出?我能按第一和第二字段分组,然后按第三字段进行区分吗?
For example
I have input data
12345|9658965|52145
12345|9658965|52145
12345|9658965|52145
23456|8541232|96589
23456|8541232|96585
I want output something like
12345|9658965|52145
23456|8541232|96589
23456|8541232|96585
2条答案
按热度按时间uttx8gqw1#
试试这个,很相似:
yebdmbv42#
方法1:使用distinct
裁判:http://pig.apache.org/docs/r0.12.0/basic.html#distinct
distinct运算符应该有帮助
方法2:按所有字段分组
这两种方法都给出了共享输入的预期输出。