如何设置nutch以仅提取种子文件上存在的url的内容

wecizke3 于 2021-06-09 发布在 Hbase

关注(0)|答案(2)|浏览(321)

我使用的是nutch2.3，我正在尝试获取seed.txt文件中存在的一些url的html内容，我将这些内容传递给nutch到hbase中。
所以问题如下---
第一次爬网：一切正常，我把数据放到hbase中，url作为行键。
第二次运行：当我用不同的url第二次运行爬网时，我看到有太多的url用于正在运行的抓取作业，而我的种子文件中只有一个url。
所以我的问题是如何确保nutch只爬行并获取seed.txt中url的html内容，而不获取seed.txt中url html内容中的out链接

hbase apache nutch web-crawler

来源：https://stackoverflow.com/questions/36681928/how-to-set-nutch-to-extract-content-of-only-urls-present-on-seed-file

2条答案

按热度按时间

kcugc4gi1#

您可以将crawl命令的迭代保持为“1”，然后nutch将只对seed.txt文件中存在的url进行爬网。
例如。

bin/crawl -i -D solr.server.url=<solrUrl> <seed-dir> <crawl-dir> 1

此外，还可以通过配置conf目录中的regex-urlfilter.txt来限制外部链接。


# accept anything else

+http://doamin.com

赞(0）回复(0）举报 2021-06-09

shstlldc2#

我认为您只想获取种子文件中给定的域。为此，更新nutch-site.xml如下

<property>
   <name>db.ignore.external.links</name>
   <value>true</value>
  </property>

赞(0）回复(0）举报 2021-06-09

我来回答

如何设置nutch以仅提取种子文件上存在的url的内容

2条答案

相关问题

热门标签

最新问答