在过去的一个月里,我一直在研究apache配置单元,我找到的所有文章都说明了什么是实际的配置单元(由apache提供)、如何安装它以及如何在其中创建表。我从来没有发现任何东西表明它在这个行业的实际应用,即使是在一个小品牌的公司。与其他数据仓库/数据库相比,hive在业界真的不那么流行吗?
6pp0gazn1#
我们使用hiveontez以及spark、sqoop等etl工具在15pb的仓库中构建数据集市。除了hive之外,我从来没有能够在某个数据库的单个查询中连接500亿行数据。Hive的可扩展性几乎是无限的。
qzwqbdag2#
apachehive是第一个“hadoop上的sql”框架,它将sql查询转换为map reduce作业。它更适用于批处理类型,而不是交互式响应时间(我会在spark上留下更多的Hive,在tez上留下Hive等,不在讨论范围之内)我们在elt管道中使用hive(连同spark)来接收原始数据集并将其转换为“数据仓库”,然后进一步转换为hadoop环境中的数据集市。我们几乎把那些table的Parquet地板标准化了。对于bi Jmeter 盘,impala正在查询这些数据集市。其他一些生产作业使用sparksql。impala和sparksql都是另一种“hadoop上的sql”方言(就像hive一样),可以用来访问“大数据”/hadoop数据集。也就是说,我们仍然在相同的项目中使用更传统的数据仓库(在我们的案例中使用oracle),但是我们只能将数据的子集推送到那里(因为这些传统方法的大小/性能限制)。对于你的问题“即使是在一家小品牌公司”,我认为如果这里的关键词是“小”,那么你就不一定需要hive(或者其他任何“大数据”技术)。如果数据集很小,并且不一定需要更具可伸缩性的大数据技术,那么在使用更传统的数据库进行开发时,您应该做得很好,甚至可能更有效率。
2条答案
按热度按时间6pp0gazn1#
我们使用hiveontez以及spark、sqoop等etl工具在15pb的仓库中构建数据集市。
除了hive之外,我从来没有能够在某个数据库的单个查询中连接500亿行数据。Hive的可扩展性几乎是无限的。
qzwqbdag2#
apachehive是第一个“hadoop上的sql”框架,它将sql查询转换为map reduce作业。
它更适用于批处理类型,而不是交互式响应时间(我会在spark上留下更多的Hive,在tez上留下Hive等,不在讨论范围之内)
我们在elt管道中使用hive(连同spark)来接收原始数据集并将其转换为“数据仓库”,然后进一步转换为hadoop环境中的数据集市。我们几乎把那些table的Parquet地板标准化了。
对于bi Jmeter 盘,impala正在查询这些数据集市。其他一些生产作业使用sparksql。impala和sparksql都是另一种“hadoop上的sql”方言(就像hive一样),可以用来访问“大数据”/hadoop数据集。
也就是说,我们仍然在相同的项目中使用更传统的数据仓库(在我们的案例中使用oracle),但是我们只能将数据的子集推送到那里(因为这些传统方法的大小/性能限制)。
对于你的问题“即使是在一家小品牌公司”,我认为如果这里的关键词是“小”,那么你就不一定需要hive(或者其他任何“大数据”技术)。如果数据集很小,并且不一定需要更具可伸缩性的大数据技术,那么在使用更传统的数据库进行开发时,您应该做得很好,甚至可能更有效率。