容忍checkpoint 失败次数和重启策略冲突吗

classic Classic list List threaded Threaded
3 messages Options
smq
Reply | Threaded
Open this post in threaded view
|

容忍checkpoint 失败次数和重启策略冲突吗

smq
各位大佬好:
我现在设置容忍checkpoint失败次数是0,重启策略为固定延时重启,重启100次。
经过测试发现,checkpoint连续失败多次,程序还在运行,不知道是什么原因导致容忍checkpoint失败次数这个设置没有生效。
Reply | Threaded
Open this post in threaded view
|

Re: 容忍checkpoint 失败次数和重启策略冲突吗

Congxian Qiu
Hi smq
   这两个东西不相互影响,理论上 checkpoint 允许失败次数这个只会导致 job fail,而重启策略则是在 job fail
的时候判断怎么继续,如果不符合预期,可以看一下 jm 的 log 或者分享一下 jm log 让大家帮忙看看
Best,
Congxian


smq <[hidden email]> 于2020年10月27日周二 上午11:25写道:

> 各位大佬好:
> 我现在设置容忍checkpoint失败次数是0,重启策略为固定延时重启,重启100次。
> 经过测试发现,checkpoint连续失败多次,程序还在运行,不知道是什么原因导致容忍checkpoint失败次数这个设置没有生效。
smq
Reply | Threaded
Open this post in threaded view
|

回复:容忍checkpoint 失败次数和重启策略冲突吗

smq
你好,Congxian
&nbsp; &nbsp; &nbsp; 因为这个是在公司内网,所以没办法把日志拿出来,这个邮件好像收不了图片。我就简单描述下。
&nbsp; &nbsp; &nbsp; 我又重新测试这个,第一种方式是setTolerableCheckpointFaliureNumber (0), 没有设置重启策略,结果是checkpoint失败多次,程序还正常运行,查看日志,后边只有触发checkpoint和checkpoint过时未完成的日志,没有报错或异常。
第二种方式是setFailOnCheckpointingErrors(true),结果和第一种方式一样。
&nbsp; 不知道这个设置生效是有什么前提吗,还是有什么bug





---原始邮件---
发件人: "Congxian Qiu"<[hidden email]&gt;
发送时间: 2020年10月27日(周二) 中午11:42
收件人: "user-zh"<[hidden email]&gt;;
主题: Re: 容忍checkpoint 失败次数和重启策略冲突吗


Hi smq
&nbsp;&nbsp; 这两个东西不相互影响,理论上 checkpoint 允许失败次数这个只会导致 job fail,而重启策略则是在 job fail
的时候判断怎么继续,如果不符合预期,可以看一下 jm 的 log 或者分享一下 jm log 让大家帮忙看看
Best,
Congxian


smq <[hidden email]&gt; 于2020年10月27日周二 上午11:25写道:

&gt; 各位大佬好:
&gt; 我现在设置容忍checkpoint失败次数是0,重启策略为固定延时重启,重启100次。
&gt; 经过测试发现,checkpoint连续失败多次,程序还在运行,不知道是什么原因导致容忍checkpoint失败次数这个设置没有生效。