nutch v solr v nutch+solr

7rtdyuoh 于 2021-05-29 发布在 Hadoop

关注(0)|答案(2)|浏览(610)

有关stackoverflow的一个相关问题已经存在，但这是六年半前提出的。从那以后，特别是在nutch，发生了很大的变化。基本上我有两个问题。
我们如何比较nutch和solr？
在什么情况下，我们需要和为什么它是更好地结合这两个和使用爬行？它与在独立模式（或hadoop）中使用它们有什么不同？

hadoop solr nutch web-crawler web-scraping

来源：https://stackoverflow.com/questions/41400634/nutch-v-solr-v-nutchsolr

2条答案

按热度按时间

c0vxltue1#

nutch和solr是两码事。nutch只是在web上爬行并解析web页面的内容，solr负责索引，即在solr与nutch集成时存储nutch爬行的内容。
当你在网络上爬行时需要检索和存储数据时，你需要将solr和nutch集成起来。如果不必存储或索引任何内容，那么就不需要solr。当您希望存储nutch爬行的数据，然后对数据执行搜索时，solr非常有用。

赞(0）回复(0）举报 2021-05-29

x3naxklr2#

在目前阶段，nutch只负责抓取网页，这意味着访问网页，提取内容，找到更多的链接，并重复这个过程（我跳过了很多复杂的东西之间，但希望你得到的想法）。
爬网过程的最后一个阶段是将数据存储在后端（es/solr是1.x分支上支持的数据存储）。因此，在这一步中，solr发挥作用，在nutch完成其工作之后，您需要将数据存储在某个地方，以便能够在其上执行查询：这就是solr作业。
不久前，nutch还提供了编写倒排索引的功能（正如问题中所解释的），但是（也是不久前）的决定是反对使用solr/es（或者任何其他可以为其编写索引器插件的存储）。现在索引插件是可插入的，您可以为任何数据存储编写插件。
摘要：nutch是一个爬虫程序，solr是搜索引擎，nutch在其中存储被爬网的数据。

赞(0）回复(0）举报 2021-05-29

我来回答

nutch v solr v nutch+solr

2条答案

相关问题

热门标签

最新问答