我在 hive 里有一堆table,作为兽人储存。我想在solrcloud集合中索引他们的数据。solr中是否支持以orc格式存储的索引数据?我在谷歌上搜索了一下,但什么也没找到。
wj8zmpe11#
看起来您希望solr从特定的配置单元文件格式读取数据。您可以用另一种方式来看待这个问题,即使用hive将数据写入solr,从而让hive处理实际输入文件格式的复杂性(无论是orc、parquet、avro,还是hbase数据文件)。在lucidworks github repo中,您将发现一个名为hivesolr的项目。看一看。
z9gpfhce2#
我会接受参孙的回答。不管怎样,我对这个解决方案并不完全满意。实际上,现在我仍然需要创建一个外部表,手动声明原始表中的所有字段。在操作方面,它与从原始表开始创建一个新表(存储的ad textfile)没有什么区别,索引新的文本文件,最后删除它们(当然,对于非常大的表来说,这可能是个问题,这不是我的情况)。由于orc是一种自我描述的格式,solr最好直接从压缩文件中读取字段名和数据。
2条答案
按热度按时间wj8zmpe11#
看起来您希望solr从特定的配置单元文件格式读取数据。
您可以用另一种方式来看待这个问题,即使用hive将数据写入solr,从而让hive处理实际输入文件格式的复杂性(无论是orc、parquet、avro,还是hbase数据文件)。
在lucidworks github repo中,您将发现一个名为hivesolr的项目。看一看。
z9gpfhce2#
我会接受参孙的回答。
不管怎样,我对这个解决方案并不完全满意。实际上,现在我仍然需要创建一个外部表,手动声明原始表中的所有字段。在操作方面,它与从原始表开始创建一个新表(存储的ad textfile)没有什么区别,索引新的文本文件,最后删除它们(当然,对于非常大的表来说,这可能是个问题,这不是我的情况)。
由于orc是一种自我描述的格式,solr最好直接从压缩文件中读取字段名和数据。