把Hive和 Impala 、Spark或钻头作比较有时听起来不太合适。开发hive和这些工具背后的目标是不同的。hive从来不是为实时内存处理而开发的,它是基于mapreduce的。它是为离线批量处理而建的。最适合在需要长时间运行的作业执行数据繁重的操作(如在非常大的数据集上进行连接)时使用。 另一方面,这些工具是保持 real-timeness 记住。当你需要查询不太庞大的数据时,可以将它们放入内存,实时进行。我并不是说你不能用这些工具在bigdata上运行查询,但是如果你在pbs的数据上运行实时查询,那你就太过分了。 你经常会看到(或读到)某个公司有几个pbs的数据,他们成功地满足了客户的实时需求。但实际上,这些公司大部分时间并不是在查询他们的全部数据。所以,重要的是正确的计划, when to use what . 我希望你明白我想说的意思。 回到你的实际问题上来,在我看来,目前很难提供一个合理的比较,因为这些项目大多还远远没有完成。他们还没有生产准备好,除非你愿意做一些(或可能很多)自己的工作。而且,对于这些项目中的每一个,都有特定的目标,这些目标对于特定的项目是非常具体的。 For example , Impala 是利用现有的Hive基础设施开发的,这样你就不必从头开始。它使用与hive相同的元数据。它的目标是在现有hadoop仓库之上运行实时查询。而钻孔机被发展成 not only Hadoop 项目。并为我们提供跨多个大数据平台的分布式查询功能,包括mongodb、cassandra、riak和splunk。shark与apachehive兼容,这意味着您可以使用与通过hive相同的hiveql语句来查询它。不同的是,shark返回结果的速度比在hive上运行的相同查询快30倍。 Impala 目前做得很好,有些人一直在使用它,但我不太相信其余的2。所有这些工具都很好,但只有在您对数据和处理需要尝试这些工具之后,才能进行公平的比较。但根据我的经验, Impala 是目前最好的选择。我不是说其他工具不好,但它们还不够成熟。但是,如果您希望将它与已经运行的hadoop集群(apache的hadoop for ex)一起使用,您可能需要做一些额外的工作,因为几乎每个人都将impala用作cdh特性。 注:所有这些都是基于我的经验。如果你发现有什么不对劲或不合适的地方,请务必告诉我。欢迎提出意见和建议。我希望这能回答你的一些问题。
2条答案
按热度按时间mo49yndu1#
以下是“ Impala 与鲨鱼相比如何?”的答案,来自加州大学伯克利分校(uc berkeley)amplab鲨鱼开发项目负责人reynoldxin。
chhkpiq42#
把Hive和 Impala 、Spark或钻头作比较有时听起来不太合适。开发hive和这些工具背后的目标是不同的。hive从来不是为实时内存处理而开发的,它是基于mapreduce的。它是为离线批量处理而建的。最适合在需要长时间运行的作业执行数据繁重的操作(如在非常大的数据集上进行连接)时使用。
另一方面,这些工具是保持
real-timeness
记住。当你需要查询不太庞大的数据时,可以将它们放入内存,实时进行。我并不是说你不能用这些工具在bigdata上运行查询,但是如果你在pbs的数据上运行实时查询,那你就太过分了。你经常会看到(或读到)某个公司有几个pbs的数据,他们成功地满足了客户的实时需求。但实际上,这些公司大部分时间并不是在查询他们的全部数据。所以,重要的是正确的计划,
when to use what
. 我希望你明白我想说的意思。回到你的实际问题上来,在我看来,目前很难提供一个合理的比较,因为这些项目大多还远远没有完成。他们还没有生产准备好,除非你愿意做一些(或可能很多)自己的工作。而且,对于这些项目中的每一个,都有特定的目标,这些目标对于特定的项目是非常具体的。
For example
, Impala 是利用现有的Hive基础设施开发的,这样你就不必从头开始。它使用与hive相同的元数据。它的目标是在现有hadoop仓库之上运行实时查询。而钻孔机被发展成not only Hadoop
项目。并为我们提供跨多个大数据平台的分布式查询功能,包括mongodb、cassandra、riak和splunk。shark与apachehive兼容,这意味着您可以使用与通过hive相同的hiveql语句来查询它。不同的是,shark返回结果的速度比在hive上运行的相同查询快30倍。Impala 目前做得很好,有些人一直在使用它,但我不太相信其余的2。所有这些工具都很好,但只有在您对数据和处理需要尝试这些工具之后,才能进行公平的比较。但根据我的经验, Impala 是目前最好的选择。我不是说其他工具不好,但它们还不够成熟。但是,如果您希望将它与已经运行的hadoop集群(apache的hadoop for ex)一起使用,您可能需要做一些额外的工作,因为几乎每个人都将impala用作cdh特性。
注:所有这些都是基于我的经验。如果你发现有什么不对劲或不合适的地方,请务必告诉我。欢迎提出意见和建议。我希望这能回答你的一些问题。