我一直在尝试运行一个非常简单的任务与Pig亚马逊电子病历。在交互式shell中运行命令时,一切正常。但是当我运行与批处理作业相同的东西时,我得到
[main]error org.apache.pig.tools.grunt.grunt-错误2017:创建作业配置时发生内部错误。
运行脚本失败。这是我的7行脚本。它只是计算google bigrams元组的平均值。mc是匹配计数,vc是体积计数。
bigrams = LOAD 's3n://<<bucket-name>>/gbbigrams/*' AS (bigram:chararray, year:int, mc:int, vc:int);
grouped_bigrams = group bigrams by bigram;
answer1 = foreach grouped_bigrams generate group, ((DOUBLE) SUM(bigrams.mc))/COUNT(bigrams) AS avg_mc;
sort_answer1 = ORDER answer1 BY avg_mc desc;
answer2 = LIMIT sort_answer1 5;
STORE answer1 INTO 's3n://<bucket-name>/output/bigram/20130409/answer1';
STORE answer2 INTO 's3n://<bucket-name>/output/bigram/20130409/answer2';
我猜这个错误与存储和s3路径有关。因此,我尝试了各种组合,比如使用$output、反斜杠等,但总是得到相同的错误。任何帮助都将不胜感激。
1条答案
按热度按时间j8ag8udp1#
您是否尝试过使用s3块文件系统而不是本机文件系统?
例如