在3节点spark/hadoop集群上,哪个调度器(管理器)可以有效地工作?目前我使用的是独立管理器,但是对于每个spark作业,我必须显式地指定所有资源参数(例如:核心、内存等),我希望避免这样做。我也尝试过Yarn,但它的运行速度比独立管理器慢10倍。mesos会有帮助吗?集群详细信息:spark 1.2.1和hadoop 2.7.1
r1zk6ea11#
apachespark以以下集群模式运行地方的独立的Yarn中观Kubernetes游牧民族本地模式用于在操作系统上运行spark应用程序。此模式对于spark应用程序开发和测试非常有用。独立模式、Yarn模式、mesos模式和kubernetes模式是分布式环境。在分布式环境中,资源管理对于计算资源的管理至关重要。为了有效地管理计算资源,我们需要一个良好的资源管理系统或资源调度系统。单机版适用于小型spark集群,但不适用于大型集群(在集群节点中运行spark守护程序(主+从)会有开销)。这些守护进程需要专用资源。因此,对于较大的生产集群,不建议使用单机版。standalone仅支持spark应用程序,它不是通用群集管理器。在需要运行各种工作负载的企业环境中,spark standalone cluster manager不是一个好的选择。在yarn和mesos模式下,spark作为一个应用程序运行,并且没有守护进程开销。因此,我们可以使用Yarn或Mesos为更好的性能和可扩展性。yarn和mesos都是通用的分布式资源管理,它们支持mapreduce、spark、flink、storm等多种工作负载。。。使用容器编排。它们有利于运行大型企业生产集群。在yarn和mesos之间,yarn是专门为hadoop工作负载设计的,而mesos是为各种工作负载设计的。yarn是应用程序级调度器,mesos是操作系统级调度器。如果已经运行了hadoop集群(apache/cdh/hdp),那么最好使用yarn。在一个全新的项目中,最好使用mesos(apache,mesosphere)。还有一条规定,使用名为apachemyriad的项目以并置方式使用这两种方法。kubernetes—用于自动化容器化应用程序的部署、扩展和管理的开放源代码系统。此模式为实验状态。因此,它用于以容器化方式运行spark应用程序。nomad是另一个运行spark应用程序的开源系统。spark项目不正式支持此群集管理器作为群集管理器。在以上所有模式中,apachemesos具有更好的资源管理功能。请看这个链接,它包含了一个详细的解释,从专业知识对Yarn与mesos。http://www.quora.com/how-does-yarn-compare-to-mesos
ibrsph3r2#
在一个3节点的集群上,我只需要使用独立的管理器,额外进程的开销不会得到回报
2条答案
按热度按时间r1zk6ea11#
apachespark以以下集群模式运行
地方的
独立的
Yarn
中观
Kubernetes
游牧民族
本地模式用于在操作系统上运行spark应用程序。此模式对于spark应用程序开发和测试非常有用。
独立模式、Yarn模式、mesos模式和kubernetes模式是分布式环境。在分布式环境中,资源管理对于计算资源的管理至关重要。为了有效地管理计算资源,我们需要一个良好的资源管理系统或资源调度系统。
单机版适用于小型spark集群,但不适用于大型集群(在集群节点中运行spark守护程序(主+从)会有开销)。这些守护进程需要专用资源。因此,对于较大的生产集群,不建议使用单机版。standalone仅支持spark应用程序,它不是通用群集管理器。在需要运行各种工作负载的企业环境中,spark standalone cluster manager不是一个好的选择。
在yarn和mesos模式下,spark作为一个应用程序运行,并且没有守护进程开销。因此,我们可以使用Yarn或Mesos为更好的性能和可扩展性。yarn和mesos都是通用的分布式资源管理,它们支持mapreduce、spark、flink、storm等多种工作负载。。。使用容器编排。它们有利于运行大型企业生产集群。
在yarn和mesos之间,yarn是专门为hadoop工作负载设计的,而mesos是为各种工作负载设计的。yarn是应用程序级调度器,mesos是操作系统级调度器。如果已经运行了hadoop集群(apache/cdh/hdp),那么最好使用yarn。在一个全新的项目中,最好使用mesos(apache,mesosphere)。还有一条规定,使用名为apachemyriad的项目以并置方式使用这两种方法。
kubernetes—用于自动化容器化应用程序的部署、扩展和管理的开放源代码系统。此模式为实验状态。因此,它用于以容器化方式运行spark应用程序。
nomad是另一个运行spark应用程序的开源系统。spark项目不正式支持此群集管理器作为群集管理器。
在以上所有模式中,apachemesos具有更好的资源管理功能。
请看这个链接,它包含了一个详细的解释,从专业知识对Yarn与mesos。http://www.quora.com/how-does-yarn-compare-to-mesos
ibrsph3r2#
在一个3节点的集群上,我只需要使用独立的管理器,额外进程的开销不会得到回报