apache nutch错误

luaexgnf  于 2021-06-09  发布在  Hbase
关注(0)|答案(0)|浏览(201)

我对nutch solr和hbase是完全陌生的。我安装了以下
apache-nutch-2.2.1版,
hbase-0.9.4和
解决方案-3.6.2。
我目前正在运行osxmavericks,并且安装了java1.7
其他一切似乎都很好,但当我尝试爬行时,我得到了一些错误,实际上没有做任何工作,如下所示:

mac:local engrsnmusa$ bin/crawl urls/seed.txt TestCrawl http://localhost:8983/solr/ 2

注射工工作:2014-05-07 21:09:56开始
injectorjob:注入urldir:url/seed.txt
2014-05-07 21:09:56.720 java[2865:1903]无法从scdynamicstore加载领域信息
injectorjob:使用org.apache.gora.memory.store.memstore类作为gora存储类。
injectorjob:筛选器拒绝的URL总数:0
injectorjob:规范化和筛选后注入的URL总数:1
喷油器:完成时间:2014-05-07 21:10:02,经过时间:00:00:06
2014年5月7日星期三21:10:02英国夏令时:第1次迭代,共2次
正在生成batchid
生成新的fetchlist
发电机作业:2014-05-07 21:10:07开始
generatorjob:选择要获取的最佳评分URL。
generatorjob:启动
generatorjob:筛选:false
generatorjob:规范化:false
发电机工作:topn:50000
2014-05-07 21:10:08.129 java[2874:1903]无法从scdynamicstore加载领域信息
generatorjob:2014-05-07 21:10:12完成,运行时间:00:00:04
generatorjob:生成的批次id:1399493402-24778
正在获取:
fetcherjob:正在启动
fetcherjob:batchid:1399493402-24778
获取程序:“http.robots.agents”属性中应首先列出“http.agent.name”值。
fetcherjob:线程数:50
fetcherjob:解析:false
fetcherjob:继续:false
获取作业:时间限制设置为:1399504217796
2014-05-07 21:10:18.207 java[2881:1903]无法从scdynamicstore加载领域信息
使用队列模式:byhost
获取程序:线程:50
queuefeeder已完成:共0条记录。被时间限制击中:0
-正在完成线程获取线程0,activethreads=0
-正在完成线程获取线程1,activethreads=0
-正在完成线程获取thread2,activethreads=0
-正在完成线程获取thread3,activethreads=0
-正在完成线程获取thread4,activethreads=0
-正在完成线程获取线程5,activethreads=0
-正在完成线程获取线程6,activethreads=0
-正在完成线程获取线程7,activethreads=0
-正在完成线程获取线程8,activethreads=0
-正在完成线程获取线程9,activethreads=0
-正在完成线程获取线程10,activethreads=0
-正在完成线程获取线程11,activethreads=0
-正在完成线程获取线程12,activethreads=0
-正在完成线程获取线程13,activethreads=0
-正在完成线程获取线程14,activethreads=0
-正在完成线程获取线程15,activethreads=0
-正在完成线程获取线程16,activethreads=0
-正在完成线程获取线程17,activethreads=0
-正在完成线程获取线程18,activethreads=0
-正在完成线程获取线程19,activethreads=0
-正在完成线程获取线程20,activethreads=0
-正在完成线程获取thread21,activethreads=0
-正在完成线程获取线程22,activethreads=0
-正在完成线程获取线程23,activethreads=0
-正在完成线程获取线程24,activethreads=0
-正在完成线程获取线程25,activethreads=0
-正在完成线程获取线程26,activethreads=0
-正在完成线程获取线程27,activethreads=0
-正在完成线程获取线程28,activethreads=0
-正在完成线程获取线程29,activethreads=0
-正在完成线程获取thread30,activethreads=0
-正在完成线程获取线程31,activethreads=0
-正在完成线程获取thread32,activethreads=0
-正在完成线程获取thread33,activethreads=0
-finishing thread fetcherthread34,activethreads=0-finishing thread fetcherthread35,activethreads=0
-正在完成线程获取线程36,activethreads=0
-正在完成线程获取线程37,activethreads=0
-正在完成线程获取线程38,activethreads=0
-正在完成线程获取thread39,activethreads=0
-正在完成线程获取线程40,activethreads=0
-正在完成线程获取线程41,activethreads=0
-正在完成线程获取线程42,activethreads=0
-正在完成线程获取线程43,activethreads=0
-正在完成线程获取线程44,activethreads=0
-正在完成线程获取线程45,activethreads=0
-正在完成线程获取线程46,activethreads=0
-正在完成线程获取线程47,activethreads=0
-正在完成线程获取线程48,activethreads=0
获取程序:吞吐量阈值:-1
获取程序:吞吐量阈值序列:5
-正在完成线程获取线程49,activethreads=0
0/0 spinwaiting/active,0页,0个错误,0.0页/秒,0 kb/秒,0个队列中有0个URL
-活动线程=0
获取作业:完成
解析:
parserjob:启动
parserjob:恢复:false
parserjob:强制重分析:false
parserjob:批次ID:1399493402-24778
2014-05-07 21:10:36.065 java[2888:1903]无法从scdynamicstore加载领域信息
parserjob:成功
testcrawl的crawldb更新
dbupdaterjob:正在启动
2014-05-07 21:10:44.649 java[2895:1903]无法从scdynamicstore加载领域信息
dbupdaterjob:完成

Indexing TestCrawl on SOLR index -> http://localhost:8983/solr/

solrindexerjob:开始
2014-05-07 21:10:47.965 java[2902:1903]无法从scdynamicstore加载领域信息
solrindexerjob:完成。

SOLR dedup -> "http://localhost:8983/solr/"

2014-05-07 21:10:51.160 java[2909:1903]无法从scdynamicstore加载领域信息
2014年5月7日星期三21:10:54英国夏令时:第2次迭代,共2次
正在生成batchid
生成新的fetchlist
发电机作业:2014-05-07 21:11:12开始
generatorjob:选择要获取的最佳评分URL。
generatorjob:启动
generatorjob:筛选:false
generatorjob:规范化:false
发电机工作:topn:50000
2014-05-07 21:11:13.955 java[2919:1903]无法从scdynamicstore加载领域信息
generatorjob:2014-05-07 21:11:19完成,运行时间:00:00:06
generatorjob:生成的批id:1399493454-2657
正在获取:
fetcherjob:正在启动
获取作业:batchid:1399493454-2657
获取程序:“http.robots.agents”属性中应首先列出“http.agent.name”值。
fetcherjob:线程数:50
fetcherjob:解析:false
fetcherjob:继续:false
获取作业:时间限制设置为:1399504284866
2014-05-07 21:11:25.322 java[2930:1903]无法从scdynamicstore加载领域信息
使用队列模式:byhost
获取程序:线程:50
queuefeeder已完成:共0条记录。被时间限制击中:0
-正在完成线程获取线程0,activethreads=0
-正在完成线程获取线程1,activethreads=0
-正在完成线程获取thread2,activethreads=0
-正在完成线程获取thread3,activethreads=0
-正在完成线程获取thread4,activethreads=0
-正在完成线程获取线程5,activethreads=0
-正在完成线程获取线程6,activethreads=0
-正在完成线程获取线程7,activethreads=0
-正在完成线程获取线程8,activethreads=0
-正在完成线程获取线程9,activethreads=0
-正在完成线程获取线程10,activethreads=0
-正在完成线程获取线程11,activethreads=0
-正在完成线程获取线程12,activethreads=0
-正在完成线程获取线程13,activethreads=0
-正在完成线程获取线程14,activethreads=0
-正在完成线程获取线程15,activethreads=0
-正在完成线程获取线程16,activethreads=0
-正在完成线程获取线程17,activethreads=0
-正在完成线程获取线程18,activethreads=0
-正在完成线程获取线程19,activethreads=0
-正在完成线程获取线程20,activethreads=0
-正在完成线程获取thread21,activethreads=0
-正在完成线程获取线程22,activethreads=0
-正在完成线程获取线程23,activethreads=0
-正在完成线程获取线程24,activethreads=0
-精加工线程获取线程26,activethreads=1
-正在完成线程获取线程25,activethreads=0
-正在完成线程获取线程27,activethreads=0
-正在完成线程获取线程28,activethreads=0
-正在完成线程获取线程29,activethreads=0
-正在完成线程获取线程31,activethreads=0
-正在完成线程获取thread32,activethreads=0
-正在完成线程获取thread33,activethreads=0
-正在完成线程获取thread30,activethreads=0
-正在完成线程获取线程34,activethreads=0
-正在完成线程获取线程35,activethreads=0
-正在完成线程获取线程36,activethreads=0
-正在完成线程获取线程37,activethreads=0
-正在完成线程获取线程38,activethreads=0
-正在完成线程获取thread39,activethreads=0
-正在完成线程获取线程40,activethreads=0
-正在完成线程获取线程41,activethreads=0
-正在完成线程获取线程42,activethreads=0
-正在完成线程获取线程43,activethreads=0
-正在完成线程获取线程44,activethreads=0
-正在完成线程获取线程45,activethreads=0
-正在完成线程获取线程46,activethreads=0
-正在完成线程获取线程47,activethreads=0
-正在完成线程获取线程48,activethreads=0
获取程序:吞吐量阈值:-1
获取程序:吞吐量阈值序列:5
-正在完成线程获取线程49,activethreads=0
0/0 spinwaiting/active,0页,0个错误,0.0页/秒,0 kb/秒,0个队列中有0个URL
-活动线程=0
获取作业:完成
解析:
parserjob:启动
parserjob:恢复:false
parserjob:强制重分析:false
parserjob:批次ID:1399493454-2657
2014-05-07 21:11:41.723 java[2937:1903]无法从scdynamicstore加载领域信息
parserjob:成功
testcrawl的crawldb更新
dbupdaterjob:正在启动
2014-05-07 21:11:49.314 java[2944:1903]无法从scdynamicstore加载领域信息
dbupdaterjob:完成

Indexing TestCrawl on SOLR index -> http://localhost:8983/solr/

solrindexerjob:开始
2014-05-07 21:11:52.281 java[2951:1903]无法从scdynamicstore加载领域信息
solrindexerjob:完成。

SOLR dedup -> http://localhost:8983/solr/

2014-05-07 21:11:55.373 java[2958:1903]无法从scdynamicstore加载领域信息
mac:local engrsnmusa$
提前谢谢你的帮助

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题