如何设置nutch以仅提取种子文件上存在的url的内容

wecizke3  于 2021-06-09  发布在  Hbase
关注(0)|答案(2)|浏览(321)

我使用的是nutch2.3,我正在尝试获取seed.txt文件中存在的一些url的html内容,我将这些内容传递给nutch到hbase中。
所以问题如下---
第一次爬网:一切正常,我把数据放到hbase中,url作为行键。
第二次运行:当我用不同的url第二次运行爬网时,我看到有太多的url用于正在运行的抓取作业,而我的种子文件中只有一个url。
所以我的问题是如何确保nutch只爬行并获取seed.txt中url的html内容,而不获取seed.txt中url html内容中的out链接

kcugc4gi

kcugc4gi1#

您可以将crawl命令的迭代保持为“1”,然后nutch将只对seed.txt文件中存在的url进行爬网。
例如。

bin/crawl -i -D solr.server.url=<solrUrl> <seed-dir> <crawl-dir> 1

此外,还可以通过配置conf目录中的regex-urlfilter.txt来限制外部链接。


# accept anything else

+http://doamin.com
shstlldc

shstlldc2#

我认为您只想获取种子文件中给定的域。为此,更新nutch-site.xml如下

<property>
   <name>db.ignore.external.links</name>
   <value>true</value>
  </property>

相关问题