nutch v solr v nutch+solr

7rtdyuoh  于 2021-05-29  发布在  Hadoop
关注(0)|答案(2)|浏览(611)

有关stackoverflow的一个相关问题已经存在,但这是六年半前提出的。从那以后,特别是在nutch,发生了很大的变化。基本上我有两个问题。
我们如何比较nutch和solr?
在什么情况下,我们需要和为什么它是更好地结合这两个和使用爬行?它与在独立模式(或hadoop)中使用它们有什么不同?

c0vxltue

c0vxltue1#

nutch和solr是两码事。nutch只是在web上爬行并解析web页面的内容,solr负责索引,即在solr与nutch集成时存储nutch爬行的内容。
当你在网络上爬行时需要检索和存储数据时,你需要将solr和nutch集成起来。如果不必存储或索引任何内容,那么就不需要solr。当您希望存储nutch爬行的数据,然后对数据执行搜索时,solr非常有用。

x3naxklr

x3naxklr2#

在目前阶段,nutch只负责抓取网页,这意味着访问网页,提取内容,找到更多的链接,并重复这个过程(我跳过了很多复杂的东西之间,但希望你得到的想法)。
爬网过程的最后一个阶段是将数据存储在后端(es/solr是1.x分支上支持的数据存储)。因此,在这一步中,solr发挥作用,在nutch完成其工作之后,您需要将数据存储在某个地方,以便能够在其上执行查询:这就是solr作业。
不久前,nutch还提供了编写倒排索引的功能(正如问题中所解释的),但是(也是不久前)的决定是反对使用solr/es(或者任何其他可以为其编写索引器插件的存储)。现在索引插件是可插入的,您可以为任何数据存储编写插件。
摘要:nutch是一个爬虫程序,solr是搜索引擎,nutch在其中存储被爬网的数据。

相关问题