我对hadoop/hortonworks/pig之类的东西还不熟悉,所以请原谅我的问题。
我已经安装了hortonworks沙盒。我正试图加载一个twitterjson文件并对该文件执行一些查询,但我目前仍停留在加载文件部分。
我知道我应该使用象鸟来加载jsonload()的json文件(不指定json模式),所以我从git repo下载了象鸟,并包含了jar文件
Elephant-bird\repo\com\twitter\elephant-bird\2.2.3\elephant-bird-2.2.3.jar
在hortonworks沙盒里。下面是我的Pig脚本截图:
REGISTER elephant-bird-2.2.3.jar;
Json1 = LOAD 'JSON/sample.tweets' JsonLoader();
DESCRIBE Json1;
STORE Json1 INTO 'tweeterOutput';
不幸的是,我无法从这个脚本执行中得到任何结果。我两个都试过了 STORE
以及 DUMP
命令。
可能我在这个过程中做了很多错误的事情,所以任何帮助都将不胜感激!
2条答案
按热度按时间u91tlkcl1#
修复下面的问题
您需要再添加几个jar:elephant-bird-core-4.4.jar、elephant-bird-pig-4.4.jar、elephant-bird-hadoop-compat-4.4.jar、json-simple-1.1.jar
在脚本中注册它们
注册elephant-bird-core-4.4.jar;
注册elephant-bird-pig-4.4.jar;
注册elephant-bird-hadoop-compat-4.4.jar;
注册json-simple-1.1.1.jar;
使用com.twitter.elephantbird.pig.load.jsonloader('-nestedload')加载“json/sample.tweets”;
fjaof16o2#
你错过了
USING
关键字: