hadoop1.0.3和nutch1.5.1无法更新crawldb

iszxjhcz  于 2021-06-03  发布在  Hadoop
关注(0)|答案(0)|浏览(236)

我尝试在服务器上部署hadoop,然后使用本教程构建nutch1.5.1在hadoop上运行nutch。我在日志文件中没有收到任何错误消息,但是crawldb无法更新任何url,因此crawldb总是有init url。
在我的development env中,我运行org.apache.nutch.crawl.crawl url-dir crawl-depth 3,运行正常。
在服务器端,我运行如下脚本:

./runtime/deploy/bin/nutch crawl urls -dir crawl -depth 3 -topN 5

我在hdfs中复制的url文件。
我需要配置什么吗?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题