yarn在spark for linux集群中作为资源管理器-kubernetes内部和外部

kb5ga3dv 于 2021-07-13 发布在 Spark

关注(0)|答案(1)|浏览(323)

如果我使用kubernetes集群来运行spark，那么我在spark中使用kubernetes资源管理器。
如果我使用hadoop集群来运行spark，那么我将在spark中使用yarn资源管理器。
但我的问题是，如果我在kebernetes中生成多个linux节点，并且使用其中一个节点作为spark maste，另外三个节点作为worker，那么我应该使用什么资源管理器呢？我能用这里的Yarn吗？
第二个问题，对于任何4节点的linux spark集群（不是kubernetes和hadoop，简单连接的linux机器），即使我没有hdfs，我可以在这里使用yarn作为资源管理器吗？如果没有，那么saprk应该使用什么资源管理器？
谢谢。

hadoop yarn apache-spark kubernetes google-kubernetes-engine

来源：https://stackoverflow.com/questions/66193490/yarn-as-resource-manager-in-spark-for-linux-cluster-inside-kubernetes-and-outs

1条答案

按热度按时间

gupuwyp21#

如果我在kebernetes中生成多个linux节点，
很明显你会使用kubernetes，因为它是可用的
对于任何4节点的linux spark集群（不在kubernetes和hadoop中，简单连接的linux机器），即使我没有hdfs，我也可以在这里使用yarn吗
您可以，也可以改用spark独立调度器。然而，spark需要一个共享的文件系统来读取和写入数据，因此，尽管您可以尝试使用nfs或s3/gcs来实现这一点，但hdfs的速度更快

赞(0）回复(0）举报 2021-07-13

我来回答

yarn在spark for linux集群中作为资源管理器-kubernetes内部和外部

1条答案

相关问题

热门标签

最新问答