我需要使用 SolrCloud 作为搜索引擎 HBase 以及 HDFS 用于搜索大量文档。目前这些文档位于不同的数据源中。我搞不清楚solr应该搜索、索引和存储这些文档本身,还是solr应该仅仅用于索引,文档及其元数据应该驻留在hbase/hdfs层。我尝试过搜索solr-hbase集成如何工作得最好(意味着应该在solr级别做什么,在hadoop级别做什么),但没有成功。有没有人早就做过这种大数据搜索,能给点指点?谢谢
SolrCloud
HBase
HDFS
3bygqnnd1#
solr通过索引提供快速搜索。solr为此使用反向索引。因此,您将文档索引到solr,它将创建索引。根据您如何定义schema.xml,solr决定如何创建索引。索引和字段值存储在hdfs中(基于solrconfig.xml中的配置)对于hbase,您可以直接在hbase上查询并运行您的查询,而不必使用solr。solrbase是一个solr和hbase的集成。也看看莉莉
t9aqgxwy2#
接下来的好设计是在solr中搜索内容,快速获得记录的id,然后如果需要,从hbase获取整个记录。您需要确保hbase中有完整的数据,并且只有足够的数据被索引。不用说solr和hbase应该是同步的。一个现成的框架是ngdata/hbase indexer。Solr的工作奇迹得到计数,分组计数,统计。所以一旦你得到这些号码和他们的身份证,hbase就可以接管了。一旦在hbase(id)中有了row键,就会得到低延迟的搜索结果,这也很适合web应用程序
2条答案
按热度按时间3bygqnnd1#
solr通过索引提供快速搜索。solr为此使用反向索引。因此,您将文档索引到solr,它将创建索引。根据您如何定义schema.xml,solr决定如何创建索引。索引和字段值存储在hdfs中(基于solrconfig.xml中的配置)
对于hbase,您可以直接在hbase上查询并运行您的查询,而不必使用solr。solrbase是一个solr和hbase的集成。也看看莉莉
t9aqgxwy2#
接下来的好设计是在solr中搜索内容,快速获得记录的id,然后如果需要,从hbase获取整个记录。您需要确保hbase中有完整的数据,并且只有足够的数据被索引。不用说solr和hbase应该是同步的。一个现成的框架是ngdata/hbase indexer。
Solr的工作奇迹得到计数,分组计数,统计。所以一旦你得到这些号码和他们的身份证,hbase就可以接管了。一旦在hbase(id)中有了row键,就会得到低延迟的搜索结果,这也很适合web应用程序