如何使用sequence pig脚本创建csv文件?

06odsfpq  于 2021-06-24  发布在  Pig
关注(0)|答案(1)|浏览(183)

我有一个csv文件,其中有一个列,我会在其中添加一个数字序列,然后用join链接字段。

Column_A
-----------
claudio
carlo
pierluigi
giovanni

结果:

Column_A    |Column_B
---------------------
claudio     | 1
carlo       | 2
pierluigi   | 3
giovanni    | 4

或者,有没有一种方法可以合并两个文件的两列,其中包含要加入的字段?
文件1:

Column_A
-------------
claudio
carlo
pierluigi
giovanni

文件2:

Column_B
-------------
napoli
roma
milano
genova

结果:

Column_A   | Column_B
---------------------
claudio    | napoli
carlo      | roma
pierluigi  | milano
giovanni   | genova
pengsaosao

pengsaosao1#

有很多方法,你可以使用apachepig来做你想做的事情。
从0.11版本开始,就可以使用秩运算符。

-- First load your csv file
A1 = LOAD '/path/to/file/file1.csv USING PigStorage(',') AS(name:CHARARRAY);
-- Then RANK
B1 = RANK A1;
-- Look at the results 
DUMP B;
-- First load your csv file
A2 = LOAD '/path/to/file/file2.csv USING PigStorage(',') AS(city:CHARARRAY);
B2 = RANK A2;
--- Then join by id (row number)
C = JOIN B1 BY $0, B2 BY $0;

相关问题