在emr上运行pig脚本

6uxekuva  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(302)

因此,我使用以下文件作为输入:https://svn.apache.org/repos/asf/pig/trunk/tutorial/data/excite-small.log
我现在掌握的密码是

-- FileName: excite-small.log
log  = LOAD 'excite-small.log' AS (user, timestamp, query);
grpd = GROUP log BY user;
cntd = FOREACH grpd GENERATE group, COUNT(log);
STORE cntd INTO 'output'

我使用中提到的步骤在emr上运行此作业http://docs.aws.amazon.com/elasticmapreduce/latest/developerguide/emr-pig-launch.html

我设置了以下参数

1. For Script Location: s3://mybucket/test.pig
2. For Input Location:  s3://mybucket/excite-small.log
3. For Output Location: s3://mybucket/
4. Arguments: Blank

当我运行这个作业时,我得到一个错误 Input path does not exist . 我想这和 REGISTER 但我不是很确定。有人能告诉我我做错什么了吗?

mv1qrgav

mv1qrgav1#

在pig脚本中,完整地引用输入文件,例如:

log  = LOAD 's3://mybucket/excite-small.log' AS (user, timestamp, query);

或者,使用传入的输入路径:

log = LOAD '$INPUT' AS (user, timestamp, query);

在这里找到了一个很好的解释:
用pig和弹性mapreduce分析测井曲线

相关问题