如何将hadoop数据复制到solr

b5buobof  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(412)

我有一个solr搜索,它使用lucene索引作为后端。我也有一些数据在hadoop我想使用。如何将这些数据复制到solr??
在google上我能找到的唯一的likns告诉我如何在solr中使用hdfs索引而不是本地索引。我不想直接从hadoop读取索引,我想将它们复制到solr并从那里读取。
如何复制?如果有一些增量复制机制那就太好了。

ippsafx7

ippsafx71#

如果您有一个独立的solr示例,那么您可能会面临一些扩展问题,具体取决于数据量。
我假设你使用的是hadoop/hdfs。在这种情况下,您可能需要查看solrcloud。
至于阅读hdfs,下面是lucidimagination的教程,它解决了这个问题,并推荐使用behemoth
您可能还想看看katta项目,它声称要与hadoop集成,并提供对大型数据集的近实时读取访问。架构如图所示
编辑1
Solr有这方面的公开票。对hdfs的支持定于solr4.9。如果你喜欢的话,你可以贴上补丁。

rkttyhzu

rkttyhzu2#

您不能只将自定义数据复制到solr,您需要索引它。数据可以有任何类型和格式(自由文本、xml、json甚至二进制数据)。要在solr中使用它,您需要创建文档(以键/值对作为字段的平面Map)并将它们添加到solr中。看看这个简单的基于 curl 的例子。
注意,从hdfs读取数据是另一个问题。对于solr来说,从哪里读取数据并不重要,只要提供文档即可。
在本地磁盘或hdfs中存储索引也是另一个问题。如果您希望您的索引非常大,那么可以将solr配置为使用hdfs。否则,可以使用默认属性并使用本地磁盘。

  • -“索引”是将文档添加到solr的常用术语,但实际上,将文档添加到solr内部存储和索引(使字段可搜索)是两件截然不同的事情,可以单独配置。

相关问题