pig中的嵌套分组

ndasle7k  于 2021-06-24  发布在  Pig
关注(0)|答案(1)|浏览(348)

我有这个数据结构

data: {mid: bytearray,country_code: bytearray,cnt: long}

4679201,RUS,1
4679201,GB,1
4679201,US,1
4681046,GB,2
4681046,TR,1
4681046,FR,1

我需要遍历每个“mid”值,并将其相应的数据存储在一个“csv”文件中。

STORE mid_data INTO '/mypath/4681046';

输出文件如下所示:

GB,2
TR,1
FR,1

看起来已经有一个函数(org.apache.pig.piggybank.storage.multistorage)实现了这一点,只是我不希望我的键(mid)成为输出的一部分。
谢谢
萨迪克

osh3o9ms

osh3o9ms1#

要只存储输出文件中的最后2列,请使用foreach。
前任:

view = FOREACH mid_data GENERATE country_code, cnt;
STORE view INTO '/yourpath/3452345';

相关问题