ApacheNutch、hbase、hadoop、solr、gora中的混乱

hts6caw3 于 2021-05-30 发布在 Hadoop

关注(0)|答案(1)|浏览(362)

我对所有这些术语都不熟悉，给了我一些时间去理解。但我有一些困惑。如果我错了，请纠正我。
nutch：它是用来抓取网页的，用它我们可以抓取网页。我们可以把这些网页存储在数据库的某个地方。
solr:solr可以用来索引apachenutch爬网的网页。它有助于搜索索引网页。
hbase：它被用作与hadoop交互的接口。它有助于从hdfs实时获取数据。它为交互提供了简单的sql类型接口。
hadoop：它提供了两个功能：一个是hdfs（hadoop数据文件系统），另一个是来自google算法的map-reduce功能。主要用于离线数据备份等。
哥拉和Zookeeper：我不确定。
混淆：1）。hbase是一个键值对db还是仅仅是hadoop的一个接口？或者我应该问，hbase没有hadoop还能存在吗？如果是的话，你能再解释一下它的用法吗。
2). 使用apachenutch爬行数据而不索引到solr有什么用吗？
3). 为了运行apachenutch，我们需要hbase和hadoop吗？如果没有，没有它我们怎么办？
4). hadoop是hbase的一部分吗？

hadoop hbase apache-zookeeper solr nutch

来源：https://stackoverflow.com/questions/29287204/confusion-in-apache-nutch-hbase-hadoop-solr-gora

1条答案

按热度按时间

mhd8tkvw1#

下面是对hbase和hadoop的简短讨论：hbase和hadoop/hdfs之间的区别
因为hbase是在hadoop之上构建的，没有hadoop你就不能真正拥有hbase。
是的，你可以不用solr跑nutch；然而，似乎没有太多的用例，更不用说野外的活生生的例子了。
是的，你可以不用hadoop来运行nutch，但是现实世界中似乎没有太多这样做的例子。
是的，hadoop是hbase的一部分，因为没有hadoop就没有hbase，但是hadoop当然也用于其他事情。
zookeeper用于hadoop堆栈工作流中的配置、命名、同步等。gora是一个内存管理/持久性框架，构建在hadoop之上。

赞(0）回复(0）举报 2021-05-30

我来回答

ApacheNutch、hbase、hadoop、solr、gora中的混乱

1条答案

相关问题

热门标签

最新问答