nutch-fetch新发现的域

dzjeubhm  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(327)

我们正在使用Nutch1.6来爬网。根据nutch配置,应该提供seedlist和域url过滤器,以便跨指定的域进行遍历。但是,如果新发现的url的扩展名是co.uk(仅适用于此扩展名),我们希望获取新发现的url。我们可以通过将新发现的url的域添加到文件(或数据库,无论什么)来管理它。停止爬虫程序,更新域url筛选器和种子列表,然后重新启动它。但我们如何动态地做到这一点,而不停止爬虫程序?
提前谢谢。
p、 s:co.uk域扩展只是一个例子,我们还可以添加多个扩展来允许。

68de4m5k

68de4m5k1#

知道了。
您可以在domain-urlfilter.txt中添加后缀,如“gov.uk”,作为第186-189行的domainurlfilter源代码:

if (domainSet.contains(suffix) || domainSet.contains(domain)
    || domainSet.contains(host)) {
    return url;
  }

它检查后缀、域和主机。
此外,您可以在hbase表中保留域url,并通过自己的过滤器插件(而不是使用domainurlfilter)管理它们。

相关问题