我尝试在Solr5.1中加载和索引hdfs数据。我将数据存储在配置单元表中,并使用dih导入和索引。我遵循链接solr dih中提供的步骤。我看不到任何与Hivedih的材料,所以想看看是否有人在这方面的工作。同时也在寻找关于上述场景的一些建议。
dphi5xsq1#
我能让它工作。它的工作原理很有趣。我们首先得到了hive2jar,并通过java来检查连接。然后我们意识到要使用的jar是:hadoop-common-2.7.0-mapr-1703.jarhive-common-2.1.1-mapr-1703-r1.jarhive-jdbc-2.1.1-mapr-1703-r1-standalone.jar如果您使用的是solr cloud,那么这些jar将被传输到安装solr的vm,然后在solrconfig.xml中引用,如下所示:
<lib dir=“/users/path \u to \u folder \u with \u jar”regex=“.*.jar”/>这是最重要的部分:您的配置单元连接字符串:
<datasource name=“”driver=“org.apache.hive.jdbc.hivedriver”url=“jdbc:hive2://…connectionstring“user=”username“password=”password“/><entity name=“collection\u lookup”query=“select unique\u key as id from table\u name”>
server/scripts/cloud scripts/zkcli.sh-zkhost host1:2181,host2:2181-cmd upconfig-confname confignname-confdir server/solr/configsets/folder/去http://host:8983/solr/#/collection_name/dataimport//dataimport然后检查debug并首先检查10或20条记录。您将看到数据流动。干杯!!如果你想进一步讨论的话,我可以帮你,但我想应该可以。它对我有用。特别感谢srini samudrala与我合作。
1条答案
按热度按时间dphi5xsq1#
我能让它工作。它的工作原理很有趣。
我们首先得到了hive2jar,并通过java来检查连接。然后我们意识到要使用的jar是:
hadoop-common-2.7.0-mapr-1703.jar
hive-common-2.1.1-mapr-1703-r1.jar
hive-jdbc-2.1.1-mapr-1703-r1-standalone.jar
如果您使用的是solr cloud,那么这些jar将被传输到安装solr的vm,然后在solrconfig.xml中引用,如下所示:
在solrconfig.xml中导入部件
<lib dir=“/users/path \u to \u folder \u with \u jar”regex=“.*.jar”/>
这是最重要的部分:您的配置单元连接字符串:
连接件
<datasource name=“”driver=“org.apache.hive.jdbc.hivedriver”url=“jdbc:hive2://…connectionstring“user=”username“password=”password“/>
<entity name=“collection\u lookup”query=“select unique\u key as id from table\u name”>
通过zookeeper按配置
server/scripts/cloud scripts/zkcli.sh-zkhost host1:2181,host2:2181-cmd upconfig-confname confignname-confdir server/solr/configsets/folder/
去http://host:8983/solr/#/collection_name/dataimport//dataimport然后检查debug并首先检查10或20条记录。
您将看到数据流动。干杯!!如果你想进一步讨论的话,我可以帮你,但我想应该可以。它对我有用。
特别感谢srini samudrala与我合作。