我是新来的Pig,并试图了解基本的命令。我有一个数据集a,我内部连接到数据集b。我只想保留结果数据集中的一些变量。我该怎么做?这就是我目前所拥有的
A = LOAD 'science_scores';
B = LOAD 'math_scores';
AB = JOIN A BY Name, B BY Student_Name;
现在a和b都有很多我不需要的其他列。在sql中,我会这样做:
SELECT A.science_score, B.math_score
FROM A
INNER JOIN B
ON A.Name = B.Student_Name
有人能帮我想一下怎么做吗?
谢谢!
2条答案
按热度按时间nwsw7zdq1#
你在找
FOREACH
以及GENERATE
关键词。fv2wmkja2#
请参考下面的链接。
如何在apache pig中正确地进行内部连接?