将solr索引同步到hadoop友好格式

qybjjes1  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(317)

我想对当前存储在solr中的数据进行推荐、聚类和分类。solr是我们的主要数据存储。我刚刚开始使用mahout+hadoop。
我假设solr索引不是mahout(或其他hadoop作业)输入的友好格式;我必须先将它转换成文本格式,然后才能对它执行map reduce操作。也就是说,我必须在hdfs中有一个文本文件,它总是与solr中的数据同步。
在hadoop/mahout的solr中使用数据的好计划是什么?我应该将solr中的更改同步到hdfs中的文件吗?
下面是我如何计划同步solr数据到一个文件。对于用户 X :
从最近一次获取100个文档
将这些文档转换为文本并以文件名存储:“x\u latest\u timestamp”
将x\u latest\u timestamp与主文件合并:如果主文本文件表示doc id 123有内容,而x\u latest\u timestamp表示该文档已删除,则新的主文件将反映该更改
最新更新时间

b1zrtrql

b1zrtrql1#

您最好看看datastax之类的东西,它包括并集成了(afaik)solr、cassandra和hadoop。当然,这是一个商业产品。他们有一个社区版,但我不认为它集成了solr。

相关问题