在centos 6.6上尝试用nutch 1.9爬行。
在遵循本指南后尝试初始化第一次爬网时:
http://wiki.apache.org/nutch/nutchtutorial
但是,启动时出现以下异常:
注入器:将注入的url转换为爬网db条目。injector:java.net.unknownhostexception:sparky.litk:sparky.litk:名称或服务在java.net.inetaddress.getlocalhost(inetaddress)未知。java:1473)在org.apache.hadoop.mapred.jobclient$2.run(jobclient。java:960)在org.apache.hadoop.mapred.jobclient$2.run(jobclient。java:936)位于java.security.accesscontroller.doprivileged(本机方法)javax.security.auth.subject.doas(主题。java:415)在org.apache.hadoop.security.usergroupinformation.doas(usergroupinformation。java:1190)在org.apache.hadoop.mapred.jobclient.submitjobinternal(jobclient。java:936)在org.apache.hadoop.mapred.jobclient.submitjob(jobclient。java:910)在org.apache.hadoop.mapred.jobclient.runjob(jobclient。java:1353) 在org.apache.nutch.crawl.injector.injector(injector。java:324)在org.apache.nutch.crawl.injector.run(injector。java:380)在org.apache.hadoop.util.toolrunner.run(toolrunner。java:65)在org.apache.nutch.crawl.injector.main(injector。java:370)原因:java.net.unknownhostexception:sparky.litk:名称或服务未知java.net.inet6addressimpl.lookupallhostaddr(本机方法)位于java.net.inetaddress$1.lookupallhostaddr(inetaddress)。java:901)在java.net.inetaddress.getaddressesfromnameservice(inetaddress。java:1293)在java.net.inetaddress.getlocalhost(inetaddress。java:1469) ... 12个以上
它似乎试图爬网机器自己的主机名(sparky.litk),这不是我想要它做的,我按照教程设置了seed.txt列表,但它卡在这里。
1条答案
按热度按时间qxsslcnc1#
修复方法很简单,只需将计算机的主机名添加到指向环回地址的/etc/hosts文件(127.0.0.1)
我将我的主机条目添加如下:
成功了!