pig:如何在加载时排除前n行

y53ybaqx  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(280)

在pig上加载一些数据时,有没有办法排除文件的前n行?
我有一个csv文件,我想加载,但我必须忽略前3行。

vltsax25

vltsax251#

请尝试以下代码:

abt = LOAD 'act.psv' using PigStorage('|') 
as (r1:chararray,r2:chararray);

r = rank abt;

n = filter r by ($0 > 3);

p = foreach n generate r1,r2;

dump p;
kwvwclae

kwvwclae2#

一个选择是你可以这样尝试。

A = LOAD 'input' <schema>;
B = RANK A;
C = FILTER B BY $0 > 3;
D = FOREACH C GENERATE $1..;
DUMP D;

如果您在load stmt中定义了架构,那么使用定义的名称而不是位置符号($0、$1等)。它将更具可读性。

相关问题