hadoop上的nutch一直在完成之前退出

rbl8hiat  于 2021-05-30  发布在  Hadoop
关注(0)|答案(0)|浏览(248)

我使用3节点hadoop集群运行nutch1.7。我在seeds.txt文件中输入了3000多个url。这项工作以惊人的速度完成,取得了成功。当我在solr中检查结果时,许多url都不返回任何内容。大多数有内容的网站只值一页。
我只重试了一个url,以前没有结果。现在它有94页的内容。所以这个问题肯定不是因为机器人拒绝。
每次我重新运行整个列表时,它都会运行一段时间并获得更多的页面内容,但始终无法完成列表。
是什么原因导致nutch那样退出?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题