我有如下数据
1,ref1,1200,USD,CR
2,ref1,1200,USD,DR
3,ref2,2100,USD,DR
4,ref2,800,USD,CR
5,ref2,700,USD,CR
6,ref2,600,USD,CR
我想将这些记录分组,其中field2匹配,sum(field3)匹配,field5相反(意味着如果lhs是“cr”,那么rhs应该是“dr”,反之亦然)
如何使用pig脚本实现这一点?
我有如下数据
1,ref1,1200,USD,CR
2,ref1,1200,USD,DR
3,ref2,2100,USD,DR
4,ref2,800,USD,CR
5,ref2,700,USD,CR
6,ref2,600,USD,CR
我想将这些记录分组,其中field2匹配,sum(field3)匹配,field5相反(意味着如果lhs是“cr”,那么rhs应该是“dr”,反之亦然)
如何使用pig脚本实现这一点?
2条答案
按热度按时间a8jjtwal1#
您也可以这样做:
最后一步的架构和输出:
输出输出现在有点笨拙,但这会使它变得清晰:
对此:
pxyaymoc2#
我不确定我是否理解您的要求,但您可以加载数据,分成两组(筛选/拆分)和cogroup,例如: