互联网上有很多hadoop生态系统的图片,所以我很难理解这些工具是如何协同工作的。e、 在所附图片中,为什么pig和hive基于map reduce,而其他工具如spark或storm基于yarn?你能解释一下吗?谢谢!比尔haddop生态系统
bbuxkriu1#
图为 Pig 以及 Hive 在…之上 MapReduce . 这是因为 MapReduce 是一个分布式计算引擎 Pig 以及 Hive . Pig 以及 Hive 查询执行为 MapReduce 工作。更容易相处 Pig 以及 Hive ,因为它们提供了更高级别的抽象 MapReduce .现在让我们看看 Spark / Storm / Flink 在 YARN 在照片里。 YARN 是一个允许各种应用程序在其上运行的群集管理器。 Storm , Spark 以及 Flink 所有的应用程序都可以在 YARN . MapReduce 也被认为是可以在上运行的应用程序 YARN ,如图所示。 YARN 处理资源管理部分,以便多个应用程序可以共享同一集群(如果您对类似技术的另一个示例感兴趣,请查看 Mesos ).最后,在图片的底部是 HDFS . 这是允许应用程序存储和访问数据的分布式存储层。它提供分布式存储、复制和容错等功能。如果您对更深入的潜水感兴趣,请查看apache项目页面。
Pig
Hive
MapReduce
Spark
Storm
Flink
YARN
Mesos
HDFS
1条答案
按热度按时间bbuxkriu1#
图为
Pig
以及Hive
在…之上MapReduce
. 这是因为MapReduce
是一个分布式计算引擎Pig
以及Hive
.Pig
以及Hive
查询执行为MapReduce
工作。更容易相处Pig
以及Hive
,因为它们提供了更高级别的抽象MapReduce
.现在让我们看看
Spark
/Storm
/Flink
在YARN
在照片里。YARN
是一个允许各种应用程序在其上运行的群集管理器。Storm
,Spark
以及Flink
所有的应用程序都可以在YARN
.MapReduce
也被认为是可以在上运行的应用程序YARN
,如图所示。YARN
处理资源管理部分,以便多个应用程序可以共享同一集群(如果您对类似技术的另一个示例感兴趣,请查看Mesos
).最后,在图片的底部是
HDFS
. 这是允许应用程序存储和访问数据的分布式存储层。它提供分布式存储、复制和容错等功能。如果您对更深入的潜水感兴趣,请查看apache项目页面。