我有两个数据集,我正在试图找到差异。我知道还有其他方法可以做到这一点。我感兴趣的是为什么这段代码会失败。
A = LOAD 'raw.people1' using org.apache.hive.hcatalog.pig.HCatLoader();
B = LOAD 'raw.people2' using org.apache.hive.hcatalog.pig.HCatLoader();
C = COGROUP A BY (name, place, animal, thing) , B BY (name, place, animal, thing) ;
D = FOREACH C DIFF(A, B);
a、 b和c工作正常。但d失败,错误为:解析失败:语法错误,在“diff”处或附近出现意外符号
现在不应该是这样。Pig医生(http://pig.apache.org/docs/r0.9.1/func.html#diff)声明diff使用两个pag作为参数,a和b是一袋元组。我错过了什么?谢谢
1条答案
按热度按时间jmp7cifd1#
你错过了
GENERATE
前关键字DIFF
stmt,这就是这个错误的原因。你能这样改变吗?