nutch-fetch新发现的域

dzjeubhm 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(326)

我们正在使用Nutch1.6来爬网。根据nutch配置，应该提供seedlist和域url过滤器，以便跨指定的域进行遍历。但是，如果新发现的url的扩展名是co.uk（仅适用于此扩展名），我们希望获取新发现的url。我们可以通过将新发现的url的域添加到文件（或数据库，无论什么）来管理它。停止爬虫程序，更新域url筛选器和种子列表，然后重新启动它。但我们如何动态地做到这一点，而不停止爬虫程序？
提前谢谢。
p、 s:co.uk域扩展只是一个例子，我们还可以添加多个扩展来允许。

Java hadoop Fetch Configuration nutch

来源：https://stackoverflow.com/questions/15880927/nutch-fetch-new-discovered-domains

1条答案

按热度按时间

68de4m5k1#

知道了。
您可以在domain-urlfilter.txt中添加后缀，如“gov.uk”，作为第186-189行的domainurlfilter源代码：

if (domainSet.contains(suffix) || domainSet.contains(domain)
    || domainSet.contains(host)) {
    return url;
  }

它检查后缀、域和主机。
此外，您可以在hbase表中保留域url，并通过自己的过滤器插件（而不是使用domainurlfilter）管理它们。

赞(0）回复(0）举报 2021-06-03

我来回答

nutch-fetch新发现的域

1条答案

相关问题

热门标签

最新问答