pig如何用一个map-only作业将结果存储到多个位置?

8mmmxcuj  于 2021-06-21  发布在  Pig
关注(0)|答案(0)|浏览(224)

我是pig和hadoop的初学者。我试着理解在这个简单的Pig剧本里幕后发生了什么。我正在读入一些数据,将其拆分为三个新关系,并将每个关系存储在不同的目录中。该脚本在我的psuedo分布式hadoop安装上作为一个map-only作业运行。
我一直在尝试如何在一个纯Map作业中用普通的javamap/reduce实现这一点。实现过滤/拆分是很简单的,但是我不知道如何获得一个map-only作业来将不同的键/值对发送到不同的输出。想想看,我甚至不知道怎样才能在一个完整的map/reduce作业中将输出发送到多个地方。

rawTweets = LOAD 'geotaggedTweets' USING PigStorage(',') AS (...);

SPLIT rawTweets INTO usTweets IF country == 'US', gbTweets IF country == 'GB', idTweets IF country == 'ID';

STORE usTweets INTO 'testUSTweets' USING PigStorage(',');
STORE gbTweets INTO 'testGBTweets' USING PigStorage(',');
STORE idTweets INTO 'testIDTweets' USING PigStorage(',');

编辑:啊。。。我又做了一次。在我完成写作和提交问题的整个过程之前,我似乎无法找到问题的答案。我要找的hadoop类是multipleoutputs

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题