我有一个spark streaming作业,目前在Kubernetes中以集群模式运行。驱动程序和执行器运行良好,我对它们没有任何问题。
然而,当考虑故障时,如何保护驱动程序pod免受任何k8s级别节点重启的影响。
例如:在运行pod的底层工作节点重新启动或驱动程序由于某种原因死亡的情况下,我们如何从中恢复?
我正在寻找的行为类似于K8S中的Deployment,其中Kubernetes始终尊重最小数量的副本。
但是在K8s文档中查看Spark时,没有提到与此相关的任何内容
所以简单来说:如果我的驱动程序pod由于某些问题而死亡,我们如何告诉kubernetes自动将其恢复。
1条答案
按热度按时间jfewjypa1#
您可以使用Spark Operator将作业作为SparkApplication运行并指定restartPolicy。