ApacheHive的实际工业应用是什么？

vlju58qv 于 2021-05-29 发布在 Hadoop

关注(0)|答案(2)|浏览(424)

在过去的一个月里，我一直在研究apache配置单元，我找到的所有文章都说明了什么是实际的配置单元（由apache提供）、如何安装它以及如何在其中创建表。
我从来没有发现任何东西表明它在这个行业的实际应用，即使是在一个小品牌的公司。
与其他数据仓库/数据库相比，hive在业界真的不那么流行吗？

hadoop Hive Database hiveql data-warehouse

来源：https://stackoverflow.com/questions/48699124/what-are-the-practical-industry-applications-of-apache-hive

2条答案

按热度按时间

6pp0gazn1#

我们使用hiveontez以及spark、sqoop等etl工具在15pb的仓库中构建数据集市。
除了hive之外，我从来没有能够在某个数据库的单个查询中连接500亿行数据。Hive的可扩展性几乎是无限的。

赞(0）回复(0）举报 2021-05-29

qzwqbdag2#

apachehive是第一个“hadoop上的sql”框架，它将sql查询转换为map reduce作业。
它更适用于批处理类型，而不是交互式响应时间(我会在spark上留下更多的Hive，在tez上留下Hive等，不在讨论范围之内）
我们在elt管道中使用hive（连同spark）来接收原始数据集并将其转换为“数据仓库”，然后进一步转换为hadoop环境中的数据集市。我们几乎把那些table的Parquet地板标准化了。
对于bi Jmeter 盘，impala正在查询这些数据集市。其他一些生产作业使用sparksql。impala和sparksql都是另一种“hadoop上的sql”方言（就像hive一样），可以用来访问“大数据”/hadoop数据集。
也就是说，我们仍然在相同的项目中使用更传统的数据仓库（在我们的案例中使用oracle），但是我们只能将数据的子集推送到那里（因为这些传统方法的大小/性能限制）。
对于你的问题“即使是在一家小品牌公司”，我认为如果这里的关键词是“小”，那么你就不一定需要hive（或者其他任何“大数据”技术）。如果数据集很小，并且不一定需要更具可伸缩性的大数据技术，那么在使用更传统的数据库进行开发时，您应该做得很好，甚至可能更有效率。

赞(0）回复(0）举报 2021-05-29

我来回答

ApacheHive的实际工业应用是什么？

2条答案

相关问题

热门标签

最新问答