使用apachesolr导入或索引hive/hdfs数据

pdkcd3nj  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(493)

我想使用apachesolr导入或索引hdfs上parquet文件中存储的配置单元表。据我所知,第一步是将数据导入或索引到 solr ,但我对此知之甚少。
以下是我的问题:
选择哪种方式:数据导入处理程序(dih)、http?
Solr4.9支持索引hdfs,有什么不同?
环境: solr 4.10 + CDH5.11 请帮忙。

6tdlim6h

6tdlim6h1#

尝试below:-
1.)在配置单元中创建了基表
配置单元>创建表solrinput3(用户名字符串)行格式分隔字段,以“,”结尾;
2.)将样本数据加载到“solrinput3”表中,如下所示:
配置单元>插入solrinput3值('sanvi');
3.)添加jar/opt/lucidworks hdpsearch/hive/solr-hive-serde-2.2.5.jar;
4.)现在,我创建了一个solr-hive集成表,如下所示:
创建外部表dbname.solrtest(标题字符串)
由'com.lucidworks.hadoop.hive.lwstoragehandler'存储
位置'/lob/test/hive\u test'
tblproperty('solr.server.url'='http://x..:8983/Solr',
'solr.collection'='myproj\u collection1',
'solr.query'=':');
5.)插入覆盖表solrtest select*from solrinput3;

相关问题