将Parquet格式的配置单元表数据索引到cloudera search/solr

v6ylcynt  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(285)

在启用了kerberos的cloudera集群中,我希望将具有parquet数据格式的配置单元表中的数据索引到cloudera search(solr)。实现这一目标的最佳方法是什么?数据可能约为10-20密耳。
到目前为止我找到了2条路-1。使用Map减少索引工具和Parquet变形线(这将是伟大的,如果我得到一些帮助这里)2。使用定制的Hive服务器,https://github.com/lucidworks/hive-solr,不确定这是否适用于更高的配置单元版本。
是否有其他机制来索引这些数据。

htrmnn0y

htrmnn0y1#

根据cloudera搜索指南-mapreduce索引,这种方法似乎对我很好。
是否有其他机制来索引这些数据。
不确定是否可以使用orc的文件本机索引。

相关问题