如何减少apachenutch中异常获取程序状态的数量?

zsbz8rwp  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(398)

我把apachenutch和hadoop结合在一起,但是我对它们都不是很熟悉。在fetch部分,当我查看fetcherstatus时,我发现异常的数量非常多(是url的三分之一)。。。
还有一个问题,我想知道apachenutch中的异常url会发生什么。异常URL是否在下一次爬网中被忽略或仍将被使用?
任何链接,答案和意见,非常感谢

gupuwyp2

gupuwyp21#

我想您正在查找conf/regex-urlfilter.txt文件。在这个文件中,您可以定义要用正则表达式包含和排除的对象。默认情况下,某些内容被排除在外,例如包含问号的URL或以媒体格式结尾的URL。
任何与您定义的模式不匹配的url都不会存储在db中,因此不会在下一个周期中使用。

相关问题