我有一个solr搜索,它使用lucene索引作为后端。我也有一些数据在hadoop我想使用。如何将这些数据复制到solr??在google上我能找到的唯一的likns告诉我如何在solr中使用hdfs索引而不是本地索引。我不想直接从hadoop读取索引,我想将它们复制到solr并从那里读取。如何复制?如果有一些增量复制机制那就太好了。
ippsafx71#
如果您有一个独立的solr示例,那么您可能会面临一些扩展问题,具体取决于数据量。我假设你使用的是hadoop/hdfs。在这种情况下,您可能需要查看solrcloud。至于阅读hdfs,下面是lucidimagination的教程,它解决了这个问题,并推荐使用behemoth您可能还想看看katta项目,它声称要与hadoop集成,并提供对大型数据集的近实时读取访问。架构如图所示编辑1Solr有这方面的公开票。对hdfs的支持定于solr4.9。如果你喜欢的话,你可以贴上补丁。
rkttyhzu2#
您不能只将自定义数据复制到solr,您需要索引它。数据可以有任何类型和格式(自由文本、xml、json甚至二进制数据)。要在solr中使用它,您需要创建文档(以键/值对作为字段的平面Map)并将它们添加到solr中。看看这个简单的基于 curl 的例子。注意,从hdfs读取数据是另一个问题。对于solr来说,从哪里读取数据并不重要,只要提供文档即可。在本地磁盘或hdfs中存储索引也是另一个问题。如果您希望您的索引非常大,那么可以将solr配置为使用hdfs。否则,可以使用默认属性并使用本地磁盘。
2条答案
按热度按时间ippsafx71#
如果您有一个独立的solr示例,那么您可能会面临一些扩展问题,具体取决于数据量。
我假设你使用的是hadoop/hdfs。在这种情况下,您可能需要查看solrcloud。
至于阅读hdfs,下面是lucidimagination的教程,它解决了这个问题,并推荐使用behemoth
您可能还想看看katta项目,它声称要与hadoop集成,并提供对大型数据集的近实时读取访问。架构如图所示
编辑1
Solr有这方面的公开票。对hdfs的支持定于solr4.9。如果你喜欢的话,你可以贴上补丁。
rkttyhzu2#
您不能只将自定义数据复制到solr,您需要索引它。数据可以有任何类型和格式(自由文本、xml、json甚至二进制数据)。要在solr中使用它,您需要创建文档(以键/值对作为字段的平面Map)并将它们添加到solr中。看看这个简单的基于 curl 的例子。
注意,从hdfs读取数据是另一个问题。对于solr来说,从哪里读取数据并不重要,只要提供文档即可。
在本地磁盘或hdfs中存储索引也是另一个问题。如果您希望您的索引非常大,那么可以将solr配置为使用hdfs。否则,可以使用默认属性并使用本地磁盘。