我有两份档案。我想按顺序合并。我如何使用pig/piglatin脚本来实现这一点?
f1.csv
1,aa
1,aa
1,ab
1,ac
2,bd
2,bd
2,bd
4,ab
4,bc
f2.csv
1,xxx
1,xxy
1,xyx
1,yxx
1,xyy
1,yyx
2,pqr
2,pq
2,pqrs
2,pqs
3,def
我需要的是
1,aa,1,xxy
1,aa,1,xyx
1,ab,1,yxx
1,ac,1,xyy
2,bd,2,pqr
2,bd,2,pq
2,bd,2,pqrs
谁能帮我使用哪个连接以及如何获得这个连接?
1条答案
按热度按时间cqoc49vn1#
1) 加载每个文件。
2) 然后把它们结合在一起
http://pig.apache.org/docs/r0.7.0/piglatin_ref2.html#union
3) 存储新的联合别名。
p、 您可以设置默认的并行1;确保只输出一个文件。