当我们运行爬虫,我们看到静态文件夹,如/cgi-bin,/images,/css等。在爬虫程序作业中弹出,我们希望从爬虫中排除它们(不是说它们最终进入索引器),我们不需要´我不想他们在索引器,但我们如何才能排除他们在爬虫,使它不被这些静态文件夹占领?感谢您的帮助。它是否有助于性能,排除它们?正如我们现在看到的,它出于某种原因吸引了它们。nutch crawler 1.2,lucene索引器。
imzjd6km1#
将拒绝规则添加到 conf/regex-urlfilter.txt 文件。
conf/regex-urlfilter.txt
-cgi-bin -images -css
请注意,这必须添加在接受所有规则之前。 +. 在regex文件中。
+.
1条答案
按热度按时间imzjd6km1#
将拒绝规则添加到
conf/regex-urlfilter.txt
文件。请注意,这必须添加在接受所有规则之前。
+.
在regex文件中。