apachesolr对orc文件格式的支持

kpbwa7wx  于 2021-06-02  发布在  Hadoop
关注(0)|答案(2)|浏览(294)

我在 hive 里有一堆table,作为兽人储存。我想在solrcloud集合中索引他们的数据。
solr中是否支持以orc格式存储的索引数据?我在谷歌上搜索了一下,但什么也没找到。

wj8zmpe1

wj8zmpe11#

看起来您希望solr从特定的配置单元文件格式读取数据。
您可以用另一种方式来看待这个问题,即使用hive将数据写入solr,从而让hive处理实际输入文件格式的复杂性(无论是orc、parquet、avro,还是hbase数据文件)。
在lucidworks github repo中,您将发现一个名为hivesolr的项目。看一看。

z9gpfhce

z9gpfhce2#

我会接受参孙的回答。
不管怎样,我对这个解决方案并不完全满意。实际上,现在我仍然需要创建一个外部表,手动声明原始表中的所有字段。在操作方面,它与从原始表开始创建一个新表(存储的ad textfile)没有什么区别,索引新的文本文件,最后删除它们(当然,对于非常大的表来说,这可能是个问题,这不是我的情况)。
由于orc是一种自我描述的格式,solr最好直接从压缩文件中读取字段名和数据。

相关问题