apache nutch重新启动爬网

bvuwiixz 于 2021-06-01 发布在 Hadoop

关注(0)|答案(1)|浏览(365)

我正在本地模式下运行ApacheNutch1.12。
我需要编辑种子文件以删除一个子域并添加一些新域，并希望从头开始重新启动爬网。
问题是，每当我重新开始爬网时，爬网都会从我停止它的地方重新开始，它位于我删除的子域的中间。
我通过终止java进程（kill-9）停止了爬网—我尝试在bin目录中创建一个.stop文件，但是没有成功，所以我使用了kill。
现在，每当我重新启动爬网，我可以从输出中看到它正在重新启动作业停止的位置。我在google上搜索了一下，发现hadoop作业停止了，但是我的服务器上没有任何hadoop文件——对hadoop的唯一引用是apachenutch目录中的jar文件。
如何从一开始就重新开始爬网，而不是从爬网上次停止的位置重新开始爬网？我想重新开始。
非常感谢

hadoop apache nutch web-crawler

来源：https://stackoverflow.com/questions/44633297/apache-nutch-restart-crawl