solr在hadoop上的集成

ykejflvf  于 2021-06-03  发布在  Hadoop
关注(0)|答案(4)|浏览(326)

我已经通过curl命令安装了solr和indexd,并执行了搜索活动。现在我想在hadoop上部署它,并在将文件推送到存储目录时自动建立索引。我对hadoop完全陌生,也不知道。有人能告诉我这件事吗?谢谢。

aor9mmx1

aor9mmx11#

为了补充alexandre的答案:在http://www.cloudera.com/content/cloudera-content/cloudera-docs/search/latest/cloudera-search-user-guide/csug_tutorial.html.

3duebb1j

3duebb1j2#

如果您不太了解底层技术,那么最好看看专门将多个软件包放在一起并围绕其特定组合提供培训材料的供应商产品。
具体来说,我建议看一下cloudera的cdh。它包括hadoop、solr和许多其他东西,比如hue。

jhiyze9q

jhiyze9q3#

您可以查看solr参考指南(在hdfs上运行solr)https://cwiki.apache.org/confluence/display/solr/running+solr+on+hdfs
solr支持将其索引和事务日志文件写入和读取到hdfs分布式文件系统
要使用hdfs而不是本地文件系统,必须使用hadoop2.x
您需要指示solr使用hdfsdirectoryfactory。还有几个额外的参数需要定义。可以通过以下三种方式之一进行设置:
1.将jvm参数传递给bin/solr脚本。每次使用bin/solr启动solr时都需要传递这些消息。
2.修改solr.in.sh(或windows上的solr.in.cmd)以在使用bin/solr时自动传递jvm参数,而不必手动设置它们。
3.在solrconfig.xml中定义属性。每个集合都需要重复这些配置更改,因此如果您只希望将某些集合存储在hdfs中,这是一个很好的选择。

0vvn1miw

0vvn1miw4#

有几种方法可以使它们在文件到达目录时自动建立索引。
使用curl-编写shell脚本并将其作为cron运行。
使用oozie-创建shell操作并计划它。
我希望morpline/flume solrFlume能用。
注:如果你找到了关于3的解决方案,请分享。
干杯,坎南

相关问题