ApacheNutchCrawler如何排除静态文件夹之类的;cgi-bin,图片,css从nutch crawler中排除?

ffx8fchx  于 2021-06-04  发布在  Hadoop
关注(0)|答案(1)|浏览(387)

当我们运行爬虫,我们看到静态文件夹,如/cgi-bin,/images,/css等。在爬虫程序作业中弹出,我们希望从爬虫中排除它们(不是说它们最终进入索引器),我们不需要´我不想他们在索引器,但我们如何才能排除他们在爬虫,使它不被这些静态文件夹占领?感谢您的帮助。它是否有助于性能,排除它们?正如我们现在看到的,它出于某种原因吸引了它们。nutch crawler 1.2,lucene索引器。

imzjd6km

imzjd6km1#

将拒绝规则添加到 conf/regex-urlfilter.txt 文件。

-cgi-bin
-images
-css

请注意,这必须添加在接受所有规则之前。 +. 在regex文件中。

相关问题