我有两个数据集
文件1
11,A,2013
12,B,2014
13,C,2015
文件2
11,A,2016,Y
15,D,2017,Y
13,C,2016,N
10,K,2017,N
我想基于这些数据集的第一列执行一个仅左连接。这是我的Pig剧本。
A_C01 = LOAD '/user/uszanr8/pigtest/file3' using PigStorage(',') ;
B_C08 = LOAD '/user/uszanr8/pigtest/file1' using PigStorage(',');
C_C01_FILT = FILTER A_C01 BY $3 == 'Y';
E_JOINED_BY_CLM_NBR = JOIN C_C01_FILT BY $0 , B_C08 BY $0 ;
DUMP E_JOINED_BY_CLM_NBR;
我的实际数据有更多的记录和列。
如何从没有使用cogroup的pig中筛选的与右数据集不匹配的左数据集获取记录。
1条答案
按热度按时间0ejtzxu11#
对于上述代码,输出如下
如果您需要a(左侧关系)中的所有记录,那么只需删除e关系即可;
希望这有帮助。。