我的输入数据是hdfs格式的。我只是想做字数统计,但有点不同。数据是json格式的。所以每行数据都是:
{"author":"foo", "text": "hello"}
{"author":"foo123", "text": "hello world"}
{"author":"foo234", "text": "hello this world"}
我只想做“文本”部分的字数统计。
我该怎么做?
到目前为止,我尝试了以下变体:
public static class TokenCounterMapper
extends Mapper<Object, Text, Text, IntWritable> {
private static final Log log = LogFactory.getLog(TokenCounterMapper.class);
private final static IntWritable one = new IntWritable(1);
private Text word = new Text();
public void map(Object key, Text value, Context context)
throws IOException, InterruptedException {
try {
JSONObject jsn = new JSONObject(value.toString());
//StringTokenizer itr = new StringTokenizer(value.toString());
String text = (String) jsn.get("text");
log.info("Logging data");
log.info(text);
StringTokenizer itr = new StringTokenizer(text);
while (itr.hasMoreTokens()) {
word.set(itr.nextToken());
context.write(word, one);
}
} catch (JSONException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
但我得到了一个错误:
Error: java.lang.ClassNotFoundException: org.json.JSONException
at java.net.URLClassLoader$1.run(URLClassLoader.java:202)
at java.security.AccessController.doPrivileged(Native Method)
at java.net.URLClassLoader.findClass(URLClassLoader.java:190)
at java.lang.ClassLoader.loadClass(ClassLoader.java:306)
at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:301)
at java.lang.ClassLoader.loadClass(ClassLoader.java:247)
at java.lang.Class.forName0(Native Method)
at java.lang.Class.forName(Class.java:247)
at org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:820)
at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:865)
at org.apache.hadoop.mapreduce.JobContext.getMapperClass(JobContext.java:199)
at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:719)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:370)
at org.apache.hadoop.mapred.Child$4.run(Child.java:255)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:396)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1093)
at org.apache.hadoop.mapred.Child.main(Child.java:249)
2条答案
按热度按时间ivqmmu1c1#
似乎你忘了在hadoop作业jar中嵌入json库。您可以在那里查看如何使用库构建您的工作:http://tikalk.com/build-your-first-hadoop-project-maven
ckx4rj1h2#
在map reduce代码中使用外部jar有几种方法:
将引用的jar包含在可提交jar的lib子目录中:作业将把jar从这个lib子目录解压到相应tasktracker节点上的jobcache中,并将您的任务指向这个目录,以使jar对您的代码可用。如果jar很小,经常更换,并且是特定于工作的,这是首选方法。这就是@clement在他的回答中所暗示的。
在集群节点上安装jar。最简单的方法是把jar放进盒子里
$HADOOP_HOME/lib
目录作为hadoop守护进程启动时包含此目录中的所有内容。请注意,要使其有效,需要启动-停止。tasktrackers将使用外部jar,因此您可以通过修改
HADOOP_TASKTRACKER_OPTS
中的选项hadoop-env.sh
配置文件并使其指向jar。jar需要出现在tasktracker运行的所有节点上的同一路径上。把jar放进
-libjars
“”的命令行选项hadoop jar …
命令。jar将被放置在分布式缓存中,并可用于作业的所有任务尝试。您的map reduce代码必须使用GenericOptionsParser
. 欲知更多详情,请阅读此博客文章。比较:
1是一个遗留方法,但不鼓励使用,因为它有很大的负性能开销。
2和#3对于私有集群来说是很好的,但是这是一个非常蹩脚的做法,因为你不能期望最终用户这么做。
4是最推荐的选项。
阅读cloudera的主要帖子)。