如果我使用kubernetes集群来运行spark,那么我在spark中使用kubernetes资源管理器。
如果我使用hadoop集群来运行spark,那么我将在spark中使用yarn资源管理器。
但我的问题是,如果我在kebernetes中生成多个linux节点,并且使用其中一个节点作为spark maste,另外三个节点作为worker,那么我应该使用什么资源管理器呢?我能用这里的Yarn吗?
第二个问题,对于任何4节点的linux spark集群(不是kubernetes和hadoop,简单连接的linux机器),即使我没有hdfs,我可以在这里使用yarn作为资源管理器吗?如果没有,那么saprk应该使用什么资源管理器?
谢谢。
1条答案
按热度按时间gupuwyp21#
如果我在kebernetes中生成多个linux节点,
很明显你会使用kubernetes,因为它是可用的
对于任何4节点的linux spark集群(不在kubernetes和hadoop中,简单连接的linux机器),即使我没有hdfs,我也可以在这里使用yarn吗
您可以,也可以改用spark独立调度器。然而,spark需要一个共享的文件系统来读取和写入数据,因此,尽管您可以尝试使用nfs或s3/gcs来实现这一点,但hdfs的速度更快