尝试在自己的本地主机名上使用nutch-java.net.unknownhostexception进行爬网时出错

ippsafx7  于 2021-06-04  发布在  Hadoop
关注(0)|答案(1)|浏览(335)

在centos 6.6上尝试用nutch 1.9爬行。
在遵循本指南后尝试初始化第一次爬网时:
http://wiki.apache.org/nutch/nutchtutorial
但是,启动时出现以下异常:
注入器:将注入的url转换为爬网db条目。injector:java.net.unknownhostexception:sparky.litk:sparky.litk:名称或服务在java.net.inetaddress.getlocalhost(inetaddress)未知。java:1473)在org.apache.hadoop.mapred.jobclient$2.run(jobclient。java:960)在org.apache.hadoop.mapred.jobclient$2.run(jobclient。java:936)位于java.security.accesscontroller.doprivileged(本机方法)javax.security.auth.subject.doas(主题。java:415)在org.apache.hadoop.security.usergroupinformation.doas(usergroupinformation。java:1190)在org.apache.hadoop.mapred.jobclient.submitjobinternal(jobclient。java:936)在org.apache.hadoop.mapred.jobclient.submitjob(jobclient。java:910)在org.apache.hadoop.mapred.jobclient.runjob(jobclient。java:1353) 在org.apache.nutch.crawl.injector.injector(injector。java:324)在org.apache.nutch.crawl.injector.run(injector。java:380)在org.apache.hadoop.util.toolrunner.run(toolrunner。java:65)在org.apache.nutch.crawl.injector.main(injector。java:370)原因:java.net.unknownhostexception:sparky.litk:名称或服务未知java.net.inet6addressimpl.lookupallhostaddr(本机方法)位于java.net.inetaddress$1.lookupallhostaddr(inetaddress)。java:901)在java.net.inetaddress.getaddressesfromnameservice(inetaddress。java:1293)在java.net.inetaddress.getlocalhost(inetaddress。java:1469) ... 12个以上
它似乎试图爬网机器自己的主机名(sparky.litk),这不是我想要它做的,我按照教程设置了seed.txt列表,但它卡在这里。

qxsslcnc

qxsslcnc1#

修复方法很简单,只需将计算机的主机名添加到指向环回地址的/etc/hosts文件(127.0.0.1)
我将我的主机条目添加如下:

127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4 Sparky.LITK
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6 Sparky.LITK

成功了!

相关问题