我正在尝试从这里快速启动:http://datafu.incubator.apache.org/docs/datafu/getting-started.html 我几乎什么都试过了,但肯定是我的错。我已经试过了:
导出pig\u home,classpath,pig\u classpath
用-cpdatafu-pig-cubating-1.3.0.jar启动Pig
在本地和hdfs中注册datafu-pig-incubating-1.3.0.jar=>都成功(至少没有显示错误)没有任何帮助
在Pig身上试试这个:
register datafu-pig-incubating-1.3.0.jar
DEFINE Median datafu.pig.stats.StreamingMedian();
data = load '/user/hduser/numbers.txt' using PigStorage() as (val:int);
data2 = FOREACH (GROUP data ALL) GENERATE Median(data);
或者直接
data2 = FOREACH (GROUP data ALL) GENERATE datafu.pig.stats.StreamingMedian(data);
我得到这个名字解决错误:
2016-06-04 17:22:22734[main]error org.apache.pig.tools.grunt.grunt-错误1070:无法使用导入解析datafu.pig.stats.streamingmedia:[,java.lang.,org.apache.pig.builtin.,org.apache.pig.impl.builtin.]日志文件中的详细信息:/home/hadoop/pig\u 1465053680252.log
当我查看datafu-pig-incubating-1.3.0.jar时,它看起来很好,一切就绪。我也尝试了一些包函数,同样的错误。我认为这是一个我看不到的noob错误(因为我没有在so或google中找到datafu的具体答案),所以提前感谢您对此给出一些解释。
1条答案
按热度按时间cfh9epnr1#
pig脚本是正确的,唯一可以破坏的是,在注册datafu时,存在一些无法满足的类依赖关系。
尝试在本地运行(pig-x local)并查看详细日志。
同时检查pig的版本-它应该比0.14.0更新。