hive-是否适合构建数据仓库?

pu3pd22g  于 2021-05-31  发布在  Hadoop
关注(0)|答案(3)|浏览(321)

所以像大多数企业公司一样,我们已经在hadoop中构建了一个数据仓库,在hive中支持用户查询,现在经过几个月的测试和用户验收测试,每个人都有点惊讶,当最终用户使用它进行特殊数据分析时,它与标准(oracle/netezza)数据库不同。虽然我知道这可能是一种非常愚蠢的项目方式(我们应该在构建产品之前研究用例和最适合的技术),但我知道hadoop与单节点机器的基本技术区别。。。我仍然想了解在任何情况下使用hadoop/hive对数据仓库是否有意义?例如,
在查询性能方面是否总是存在权衡,或者是否可以通过配置更改、硬件的水平扩展来优化它们?
它能不能像netezza一样快呢?netezza使用的是非商品硬件,但功能与netezza相似?
相比之下,hadoop在哪些方面是伟大的,并且完全击败了其他所有东西?

beq87vna

beq87vna1#

回答你的问题,
在查询性能方面是否总是存在权衡,或者是否可以通过配置更改、硬件的水平扩展来优化它们?
如果您只使用hadoop中的配置单元工具进行临时查询,那么对于临时查询和数据分析来说,这不是正确的选择。我们根据您的使用案例探索更好的选择,并从hive llap、hbase、spark、sparksql、spark streaming、apache storm、imapala、apache drill和prestodb等方面进行技术选择。
它能不能像netezza一样快呢?netezza使用的是非商品硬件,但功能与netezza相似?
它现在是大多数组织使用的更好的工具,但是您必须根据您的用例从hadoop技术堆栈中具体选择技术工具,并在研究它之后为技术做正确的选择。
相比之下,hadoop在哪些方面是伟大的,并且完全击败了其他所有东西?
hadoop最适合在数据分散在多个系统的大型组织中实现数据湖平台,使用hadoop数据湖,您可以将数据放在中心位置。它可以作为一个数据分析平台,用于组织在一段时间内积累的数据。也可用于数据流数据处理,实时得到结果。
希望这会有帮助。

kmb7vmvb

kmb7vmvb2#

我认为hivemetastore作为查询接口比hiveserver2本身更有用。
metastore是presto和spark用来比mapreduce更快地获取数据的工具,但可能没有优化好的tez查询那么快,例如,hivev2.x+和llap正在进行改进。
最后,只有当摄取管道以orc或parquet的列格式存储数据时,hive才真正有用。从那里,合理的查询引擎可以相当快地扫描数据,而hive恰好被认为是访问模式的实际实现,而impala或presto通常更多地用于临时访问。
也就是说,hive(以及hadoop上的其他sql)不是用来“构建”的,而是用来“分析”的
我不知道你所说的“标准”是什么意思——hive支持任何odbc/jdbc连接,所以并不是所有访问都使用cli,hue或zeppelin是非常好的笔记本,可以通过hive进行sql分析。

epfja78i

epfja78i3#

在hdfs或者hadoop生态系统中存储大数据有很多好处。举几个最重要的例子,有人可以存储和处理大量数据,而且配置非常简单。

相关问题