我试图执行一个带有日期过滤器的pig脚本,将hadoop文件中的记录数复制到本地unix文件中,如下所示。
REGISTER /opt/cloudera/parcels/CDH/lib/pig/piggybank.jar;
DEFINE SUBSTRING org.apache.pig.piggybank.evaluation.string.SUBSTRING();
DEFINE SequenceFileLoaderorg.apache.pig.piggybank.storage.SequenceFileLoader();
fixed_length_input = load '/data/publish/mp_feedfixed/**2016/02/24**/??/mp_feed_201602*/part-m-*' USING
SequenceFileLoader as (key:chararray, value:chararray) ;
st = FOREACH fixed_length_input GENERATE FLATTEN(STRSPLIT(value, '\u0007', 1))
as (row:chararray);
count_st = foreach (GROUP st ALL) generate COUNT(st);
dump count_st;
我得到上面提到的错误
(错误1066:无法打开别名计数的迭代器。后端错误:null)
只有一个特定的日期。我能够执行其余的日期,因此我觉得有一个问题,在该日期的文件,它正在研究。但我想不通。
我是hadoop新手,有谁能帮我解决这个问题吗。
暂无答案!
目前还没有任何答案,快来回答吧!