flink任务失败重启时, flink last checkpoint 失败但任务仍然正常重启,导致 state 重启前后不一致

classic Classic list List threaded Threaded
5 messages Options
Reply | Threaded
Open this post in threaded view
|

flink任务失败重启时, flink last checkpoint 失败但任务仍然正常重启,导致 state 重启前后不一致

莫失莫忘-2
如题,可以要求flink失败重启时 必须正常从checkpoint恢复,否则就重启失败吗?  
Reply | Threaded
Open this post in threaded view
|

Re: flink任务失败重启时, flink last checkpoint 失败但任务仍然正常重启,导致 state 重启前后不一致

Congxian Qiu
hi

这里说的 state 不一致是什么意思呢?checkpoint 恢复保证全局的 state 被重置到之前某个成功的 checkpoint。

Best,
Congxian


莫失莫忘 <[hidden email]> 于2020年6月22日周一 下午8:09写道:

> 如题,可以要求flink失败重启时 必须正常从checkpoint恢复,否则就重启失败吗?&nbsp;&nbsp;
Reply | Threaded
Open this post in threaded view
|

Re: flink任务失败重启时, flink last checkpoint 失败但任务仍然正常重启,导致 state 重启前后不一致

LakeShen
Hi ,

正如 Congxian 所说,当 Flink 任务容错恢复重启时,会从上一次成功的 Checkpoint 进行恢复。

所以你所说的 last checkpoint 失败,具体是什么含义呢?

Best,
LakeShen

Congxian Qiu <[hidden email]> 于2020年6月22日周一 下午8:23写道:

> hi
>
> 这里说的 state 不一致是什么意思呢?checkpoint 恢复保证全局的 state 被重置到之前某个成功的 checkpoint。
>
> Best,
> Congxian
>
>
> 莫失莫忘 <[hidden email]> 于2020年6月22日周一 下午8:09写道:
>
> > 如题,可以要求flink失败重启时 必须正常从checkpoint恢复,否则就重启失败吗?&nbsp;&nbsp;
>
Reply | Threaded
Open this post in threaded view
|

Re:flink任务失败重启时, flink last checkpoint 失败但任务仍然正常重启,导致 state 重启前后不一致

程龙
In reply to this post by 莫失莫忘-2






可以自己改一下源码中的消费者 判断偏移量 ,如果是原先的正常启动 如果不是则不进行启动

在 2020-06-22 20:09:11,"莫失莫忘" <[hidden email]> 写道:
>如题,可以要求flink失败重启时 必须正常从checkpoint恢复,否则就重启失败吗?&nbsp;&nbsp;
cs
Reply | Threaded
Open this post in threaded view
|

回复: flink任务失败重启时, flink last checkpoint 失败但任务仍然正常重启,导致 state 重启前后不一致

cs
In reply to this post by LakeShen
可以通过以下方法设置从checkpoint恢复失败则启动失败
StreamExecutionEnvironment.getCheckpointConfig().setFailOnCheckpointingErrors(true);
/**
 * Sets the expected behaviour for tasks in case that they encounter an error in their checkpointing procedure.
 * If this is set to true, the task will fail on checkpointing error. If this is set to false, the task will only
 * decline a the checkpoint and continue running. The default is true.
 */
public void setFailOnCheckpointingErrors(boolean failOnCheckpointingErrors) {
   this.failOnCheckpointingErrors = failOnCheckpointingErrors;
}


------------------&nbsp;原始邮件&nbsp;------------------
发件人:&nbsp;"LakeShen"<[hidden email]&gt;;
发送时间:&nbsp;2020年6月23日(星期二) 晚上7:48
收件人:&nbsp;"user-zh"<[hidden email]&gt;;

主题:&nbsp;Re: flink任务失败重启时, flink last checkpoint 失败但任务仍然正常重启,导致 state 重启前后不一致



Hi ,

正如 Congxian 所说,当 Flink 任务容错恢复重启时,会从上一次成功的 Checkpoint 进行恢复。

所以你所说的 last checkpoint 失败,具体是什么含义呢?

Best,
LakeShen

Congxian Qiu <[hidden email]&gt; 于2020年6月22日周一 下午8:23写道:

&gt; hi
&gt;
&gt; 这里说的 state 不一致是什么意思呢?checkpoint 恢复保证全局的 state 被重置到之前某个成功的 checkpoint。
&gt;
&gt; Best,
&gt; Congxian
&gt;
&gt;
&gt; 莫失莫忘 <[hidden email]&gt; 于2020年6月22日周一 下午8:09写道:
&gt;
&gt; &gt; 如题,可以要求flink失败重启时 必须正常从checkpoint恢复,否则就重启失败吗?&amp;nbsp;&amp;nbsp;
&gt;