我正在本地模式下运行ApacheNutch1.12。
我需要编辑种子文件以删除一个子域并添加一些新域,并希望从头开始重新启动爬网。
问题是,每当我重新开始爬网时,爬网都会从我停止它的地方重新开始,它位于我删除的子域的中间。
我通过终止java进程(kill-9)停止了爬网—我尝试在bin目录中创建一个.stop文件,但是没有成功,所以我使用了kill。
现在,每当我重新启动爬网,我可以从输出中看到它正在重新启动作业停止的位置。我在google上搜索了一下,发现hadoop作业停止了,但是我的服务器上没有任何hadoop文件——对hadoop的唯一引用是apachenutch目录中的jar文件。
如何从一开始就重新开始爬网,而不是从爬网上次停止的位置重新开始爬网?我想重新开始。
非常感谢
1条答案
按热度按时间k97glaaz1#
要从头开始,只需指定不同的爬网目录或删除现有的爬网目录。
从种子列表中删除条目不会影响crawldb或段的内容。要删除域而不从零重新启动,您可以做的是向url过滤器添加一个模式,以便在更新步骤中从crawldb中删除url,或者至少在生成步骤中不选择url。