我把apachenutch和hadoop结合在一起,但是我对它们都不是很熟悉。在fetch部分,当我查看fetcherstatus时,我发现异常的数量非常多(是url的三分之一)。。。还有一个问题,我想知道apachenutch中的异常url会发生什么。异常URL是否在下一次爬网中被忽略或仍将被使用?任何链接,答案和意见,非常感谢
gupuwyp21#
我想您正在查找conf/regex-urlfilter.txt文件。在这个文件中,您可以定义要用正则表达式包含和排除的对象。默认情况下,某些内容被排除在外,例如包含问号的URL或以媒体格式结尾的URL。任何与您定义的模式不匹配的url都不会存储在db中,因此不会在下一个周期中使用。
1条答案
按热度按时间gupuwyp21#
我想您正在查找conf/regex-urlfilter.txt文件。在这个文件中,您可以定义要用正则表达式包含和排除的对象。默认情况下,某些内容被排除在外,例如包含问号的URL或以媒体格式结尾的URL。
任何与您定义的模式不匹配的url都不会存储在db中,因此不会在下一个周期中使用。