我是新的坚果和solr集成。
我想爬网新的URL,所以我在ubuntu中安装了solr版本4.6.0和nutch版本1.6。首先,我从一些配置开始,但仍然出现以下错误:
org.apache.hadoop.mapred.invalidinputexception:输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/crawl\u fetch
输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/crawl\u parse
输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/parse\u data
输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/parse\u text
在文件日志中,我得到以下错误:
2015-05-29 03:05:41153错误security.usergroupinformation-priviledgedactionexception as:cloudera
cause:org.apache.hadoop.mapred.invalidinputexception:输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/crawl\u fetch
输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/crawl\u parse
输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/parse\u data
输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/parse\u text
2015-05-29 03:05:41153错误solr.solrindexer-org.apache.hadoop.mapred.invalidinputexception:输入路径不存在:文件:/home/cloudera/apache-nutch-1.6/bin/20150529030452/crawl\u fetch
输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/crawl\u parse
输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/parse\u data
输入路径不存在:file:/home/cloudera/apache-nutch-1.6/bin/20150529030452/parse\u text
这是什么意思,你能解释一下问题是什么,我怎么解决吗。
我将非常感谢你的帮助。
1条答案
按热度按时间eblbsuwk1#
如果您正在使用
bin/crawl
从macos或任何基于unix的操作系统,如freebsd,然后切换到ubuntu。我相信这是爬网脚本中的一个bug。我以前就面对过这个问题,改用ubuntu。