Apache Flink 中文用户邮件列表

回复： flink基于yarn的HA次数无效，以及HA拉起的任务是否可以重用state

Classic

List

Threaded

3 messages Options

MuChen

回复： flink基于yarn的HA次数无效，以及HA拉起的任务是否可以重用state

hi,jiliang1993:

我的理解还是受yarn的yarn.resourcemanager.am.max-attempts还是有效的。
参数yarn.application-attempt-failures-validity-interval应该只是限制了达成attempts一次计数的条件。以默认值10秒为例，在距离上次启动10秒钟内的失败重试会让attempts计数加1，而10秒后的失败重试attempts的计数是不变的。当attempts计数达到min(yarn中配置的yarn.resourcemanager.am.max-attempts,flink中配置的yarn.application-attempts)时，yarn就不再对该任务进行失败重试了。
如有理解不当，请大佬们指正！

Best,
MuChen.

------------------ 原始邮件 ------------------
发件人: "jiliang1993"<[hidden email]>;
发送时间: 2020年7月1日(星期三) 晚上10:56
收件人: "MuChen"<[hidden email]>;

主题: 回复： flink基于yarn的HA次数无效，以及HA拉起的任务是否可以重用state

意思是只要配置了ha就会不受yarn的attempt 控制对吗？

------------------ 原始邮件 ------------------
发件人: "MuChen" <[hidden email]> <"MuChen" <[hidden email]>>
发送时间: 2020年7月1日 22:48
收件人: jiliang1993 <[hidden email]>
主题: 回复： flink基于yarn的HA次数无效，以及HA拉起的任务是否可以重用state

hi，王松：受教了，多谢指点！ Best, MuChen. ------------------&nbsp;原始邮件&nbsp;------------------ 发件人:&nbsp;"王松"<[hidden email]&gt;; 发送时间:&nbsp;2020年7月1日(星期三) 晚上8:17 收件人:&nbsp;"user-zh"<[hidden email]&gt;; 主题:&nbsp;Re: flink基于yarn的HA次数无效，以及HA拉起的任务是否可以重用state hi, muchen 1. yarn.application-attempts 这个参数与另外一个参数有关系：yarn.application-attempt-failures-validity-interval，大概意思是需要在设置的这个interval内失败重试多少次，才认为flink job是失败的，如果超过这个interval，就会重新开始计数。打个比方，yarn.application-attempts: 2，yarn.application-attempt-failures-validity-interval = 10000（默认值，10s），只有在10s内 flink job 失败重启2次才会真正的失败。 2. 如果配置了checkpoint是会重用上次任务失败的state。这是我个人的理解，有疑问大家一起讨论 MuChen <[hidden email]&gt; 于2020年7月1日周三下午7:50写道： &gt; hi，all： &gt; &gt; 我根据这篇博客https://blog.csdn.net/cndotaci/article/details/106870413 &gt; 的介绍，配置了flink基于yarn的高可用，测试时发现配置的任务失败重试2次没有生效，我测试到第6次时，任务仍然能够被yarn拉起。 &gt; &gt; 请问各位大佬 &gt; &gt; 1. 下面配置中的重试次数为什么没有生效？ &gt; &gt; 2. 通过HA拉起的任务，是否可以重用上次任务失败时的state？ &gt; &gt; flink版本：1.10.0 &gt; &gt; flink-conf.yaml配置： &gt; $ grep -v ^# flink-conf.yaml |grep -v ^$ jobmanager.rpc.address: localhost &gt; jobmanager.rpc.port: 6123 jobmanager.heap.size: 1024m &gt; taskmanager.memory.process.size: 1568m taskmanager.numberOfTaskSlots: 1 &gt; parallelism.default: 1 high-availability: zookeeper &gt; high-availability.storageDir: hdfs:///flink/ha/ &gt; high-availability.zookeeper.quorum: &gt; uhadoop-op3raf-master1,uhadoop-op3raf-master2,uhadoop-op3raf-core1 &gt; state.checkpoints.dir: hdfs:///flink/checkpoint state.savepoints.dir: &gt; hdfs:///flink/flink-savepoints state.checkpoints.num-retained:60 &gt; state.backend.incremental: true jobmanager.execution.failover-strategy: &gt; region jobmanager.archive.fs.dir: hdfs:///flink/flink-jobs/ &gt; historyserver.web.port: 8082 historyserver.archive.fs.dir: &gt; hdfs:///flink/flink-jobs/ historyserver.archive.fs.refresh-interval: 10000 &gt; # HA重试次数 yarn.application-attempts: 2 &gt; ssh到jm节点，手动kill任务的操作日志： &gt; [root@uhadoop-op3raf-task48 ~]# jps 34785 YarnTaskExecutorRunner 16853 &gt; YarnTaskExecutorRunner 17527 PrestoServer 33289 YarnTaskExecutorRunner &gt; 18026 YarnJobClusterEntrypoint 20283 Jps 39599 NodeManager &gt; [root@uhadoop-op3raf-task48 ~]# kill -9 18026 [root@uhadoop-op3raf-task48 &gt; ~]# jps 34785 YarnTaskExecutorRunner 16853 -- process information &gt; unavailable 17527 PrestoServer 21383 Jps 33289 YarnTaskExecutorRunner 20412 &gt; YarnJobClusterEntrypoint 39599 NodeManager [root@uhadoop-op3raf-task48 &gt; ~]# kill -9 20412 [root@uhadoop-op3raf-task48 ~]# jps 34785 &gt; YarnTaskExecutorRunner 21926 YarnJobClusterEntrypoint 23207 Jps 17527 &gt; PrestoServer 33289 YarnTaskExecutorRunner 39599 NodeManager &gt; [root@uhadoop-op3raf-task48 ~]# kill -9 21926 [root@uhadoop-op3raf-task48 &gt; ~]# jps 34785 YarnTaskExecutorRunner 23318 YarnJobClusterEntrypoint 26279 &gt; Jps 17527 PrestoServer 33289 YarnTaskExecutorRunner 39599 NodeManager &gt; [root@uhadoop-op3raf-task48 ~]# kill -9 23318

liangji

Re: 回复： flink基于yarn的HA次数无效，以及HA拉起的任务是否可以重用state

我之前配置了HA，也配置了flink中yarn-attempts=2，结果是kill jm进程可以无限重启

--
Sent from: http://apache-flink.147419.n8.nabble.com/

Paul Lam

Re: flink基于yarn的HA次数无效，以及HA拉起的任务是否可以重用state

判断 Attempt 失败的标准是 Flink 通过 AMRMClientAsyncImpl 通知 YARN RM Application 失败并注销自己，所以 kill jm 是不算的。

Best,
Paul Lam

> 2020年7月2日 11:09，liangji <[hidden email]> 写道：
>
> 我之前配置了HA，也配置了flink中yarn-attempts=2，结果是kill jm进程可以无限重启
>
>
>
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/