我需要比较oracle和hadoop(hive)中的索引。到目前为止,我在hive中发现了两种主要的索引技术,即紧凑索引和位图索引。我可以看看hive中紧凑索引与oracle的性能差异。我需要了解更多在配置单元中使用位图索引的用例/场景。另外,还需要知道hive是否支持反向键索引、升序索引和降序索引(如oracle)。
gpnt7bae1#
是的,与oracle相比,他们在hive中使用索引有着显著的优势,记住hive适合于大型数据集,但他们的发展使hive成为一个实时数据仓库工具。可以使用位图索引的一个用例是,具有不同值的列的表显然应该是一个大表(如果表很大,则会得到更好的结果,不要使用小表进行测试)。到目前为止,hive只支持两种索引技术compact和bitmap来显式创建索引。另外,不建议使用配置单元中的索引(尽管可以根据您的用例创建索引),原因是orc格式。orc格式具有内置索引,允许格式在读取期间跳过数据块,还支持bloom筛选器索引。总之,这几乎复制了hive索引所做的工作,它们以数据格式自动完成,而不需要管理外部表(这基本上就是索引中发生的事情)。我建议你花点时间来正确设置兽人的table。同时阅读这篇关于Hive索引的文章。
wgmfuz8q2#
hive是在hadoop上运行的数据仓库工具。内置它具有用于配置单元查询的mapreduce容量。元数据和actula数据被分离并存储在apachederby中。所以对数据库的负担很小。由于分布式的特性,hive很容易处理大型表。您还可以比较oracle和hive的内部连接性能。Hive总是能给你更好的表现。
2条答案
按热度按时间gpnt7bae1#
是的,与oracle相比,他们在hive中使用索引有着显著的优势,记住hive适合于大型数据集,但他们的发展使hive成为一个实时数据仓库工具。
可以使用位图索引的一个用例是,具有不同值的列的表显然应该是一个大表(如果表很大,则会得到更好的结果,不要使用小表进行测试)。
到目前为止,hive只支持两种索引技术compact和bitmap来显式创建索引。
另外,不建议使用配置单元中的索引(尽管可以根据您的用例创建索引),原因是orc格式。
orc格式具有内置索引,允许格式在读取期间跳过数据块,还支持bloom筛选器索引。总之,这几乎复制了hive索引所做的工作,它们以数据格式自动完成,而不需要管理外部表(这基本上就是索引中发生的事情)。
我建议你花点时间来正确设置兽人的table。
同时阅读这篇关于Hive索引的文章。
wgmfuz8q2#
hive是在hadoop上运行的数据仓库工具。内置它具有用于配置单元查询的mapreduce容量。元数据和actula数据被分离并存储在apachederby中。所以对数据库的负担很小。由于分布式的特性,hive很容易处理大型表。您还可以比较oracle和hive的内部连接性能。Hive总是能给你更好的表现。