为什么flink ha cluster对Yarn的恢复次数超过了最大尝试次数?

bihw5rsg  于 2021-06-21  发布在  Flink
关注(0)|答案(0)|浏览(286)

使用flink 1.7.2和yarn 2.8,我正在测试flink cluster的恢复功能,flink高可用性集群的恢复时间超过了我的环境中的最大尝试时间。
我准备好了 yarn.resourcemanager.am.max-attempts ,这是Yarn的构型属性,用于 2 ,和 yarn.application-attempts ,这是flink的配置属性 5 .
首先,我将带有非ha设置的flink会话集群部署到yarn,并使用kill命令停止jobmanager。flink群集在两次停止jobmanager后导致失败状态。我认为 yarn.resourcemanager.am.max-attempts 影响了他的行为。
然而,当我部署ha flink cluster时,即使我停止jobmanager超过5次,flink cluster也会恢复。Yarn增量应用的尝试次数和重复恢复燧石簇和流水线作业。我想知道为什么Flink星系团比这两个都能被恢复 yarn.resourcemanager.am.max-attempts 以及 yarn.application-attempts 价值观。
这是预期的行为吗?
这是我的 flink-conf.yaml 对于ha群集:

state.backend: filesystem
state.checkpoints.dir: hdfs:///user/kmoti/.flink/checkpoints
state.savepoints.dir: hdfs:///user/kmoti/.flink/savepoints

high-availability: zookeeper
high-availability.zookeeper.quorum: zookeeper1:2181,zookeeper2:2181,zookeeper3:2181
high-availability.zookeeper.path.root: /flink
high-availability.storageDir: hdfs:///user/kmoti/.flink/recovery
yarn.application-attempts: 5

对于非ha集群:

state.backend: filesystem
state.checkpoints.dir: hdfs:///user/kmoti/.flink/checkpoints
state.savepoints.dir: hdfs:///user/kmoti/.flink/savepoints
yarn.application-attempts: 5

有人知道吗 flink ha集群中的尝试次数是多少?

以下部分于6月10日至19日更新

我在flink用户邮件列表中问了这个问题,得到的答案是,当使用kill停止进程时,yarn不会计算尝试时间,这里详细说明了这一点。
然而,当使用非ha模式时,flink集群在第二次kill命令停止jobmanager后失败。似乎只有在使用非ha集群模式时,才会计算jobmanager的失败。有人知道这种行为的原因吗?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题