我有Pig格式的数据 {(group, productId, count)}
.
现在我想得到每个组中的最大计数,输出可能如下所示 {(group, productId, maxCount)}
. 以下是示例输入数据 (south America,prod1, 45),(south America,prod2, 36), (latin america, prod1, 48),(latin america, prod5,35)
下面是这个输入的输出 (south america, prod1, 45)
(North America, prod2, 36) (latin america, prod1, 48)
有人能帮我吗。
1条答案
按热度按时间ev7lccsx1#
根据您的示例输入数据,这应该可以做到以下几点:
它按第一列对输入进行分组,然后在嵌套的foreach中按计数对每组产品进行排序,然后取第一列(最高计数)。
输出: