从savepoint 启动以后,无法在checkpoint页面看到last restore的相关信息

classic Classic list List threaded Threaded
5 messages Options
Reply | Threaded
Open this post in threaded view
|

从savepoint 启动以后,无法在checkpoint页面看到last restore的相关信息

范超

Hi, 大家好

Flink版本 1.10.0

 

目前程序的checkpoint使用rocksdb的方式存储在hdfs上,在sink失败的时候能够正常从上一个checkpoint点恢复。

问题是由于升级程序,我使用了命令行

bin/flink stop -p ${hdfsSavepointDir} -d $runningJobId -yid $yarnAppId

 

savepoint文件保存,然后再使用保存的savepoint来启动程序

/bin/flink run -d -m yarn-cluster -p ${parallelism} -yjm ${jm} -ytm ${tm} $fullJarPath -s $savePointFullPath �Cc xxx

 

比较无法理解的是,jmtm日志都显示成功启动,但是无法看到从checkpoint恢复的记录如下图所示:

 

有知道的大佬知道是不是我哪里处理不正常么?

Reply | Threaded
Open this post in threaded view
|

Re: 从savepoint 启动以后,无法在checkpoint页面看到last restore的相关信息

zilong xiao
图挂了,用图床工具贴链接吧

范超 <[hidden email]> 于2020年8月28日周五 上午11:37写道:

> Hi, 大家好
>
> Flink版本 1.10.0
>
>
>
> 目前程序的checkpoint使用rocksdb的方式存储在hdfs上,在sink失败的时候能够正常从上一个checkpoint点恢复。
>
> 问题是由于升级程序,我使用了命令行
>
> *bin/flink stop -p ${hdfsSavepointDir} -d $runningJobId -yid $yarnAppId*
>
>
>
> 将savepoint文件保存,然后再使用保存的savepoint来启动程序
>
> */bin/flink run -d -m yarn-cluster -p ${parallelism} -yjm ${jm} -ytm ${tm}
> $fullJarPath -s $savePointFullPath –c xxx*
>
>
>
> 比较无法理解的是,jm和tm日志都显示成功启动,但是无法看到从checkpoint恢复的记录如下图所示:
>
>
>
> 有知道的大佬知道是不是我哪里处理不正常么?
>
Reply | Threaded
Open this post in threaded view
|

Re: 从savepoint 启动以后,无法在checkpoint页面看到last restore的相关信息

Yun Tang
Hi 范超

虽然看不到你的图,但是你的启动命令错误了,所有的options应该放在jar包文件地址前面[1]

  1.  class name 应该在 jar包地址前面 [2]
  2.  savepoint/checkpoint 地址应该在jar包地址前面 [3]

没有正确从checkpoint恢复的原因应该是这个原因

[1] https://ci.apache.org/projects/flink/flink-docs-stable/ops/cli.html#usage
[2] https://ci.apache.org/projects/flink/flink-docs-stable/ops/cli.html#job-submission-examples
[3] https://ci.apache.org/projects/flink/flink-docs-stable/ops/state/checkpoints.html#resuming-from-a-retained-checkpoint

祝好
唐云

________________________________
From: zilong xiao <[hidden email]>
Sent: Friday, August 28, 2020 11:45
To: user-zh <[hidden email]>
Subject: Re: 从savepoint 启动以后,无法在checkpoint页面看到last restore的相关信息

图挂了,用图床工具贴链接吧

范超 <[hidden email]> 于2020年8月28日周五 上午11:37写道:

> Hi, 大家好
>
> Flink版本 1.10.0
>
>
>
> 目前程序的checkpoint使用rocksdb的方式存储在hdfs上,在sink失败的时候能够正常从上一个checkpoint点恢复。
>
> 问题是由于升级程序,我使用了命令行
>
> *bin/flink stop -p ${hdfsSavepointDir} -d $runningJobId -yid $yarnAppId*
>
>
>
> 将savepoint文件保存,然后再使用保存的savepoint来启动程序
>
> */bin/flink run -d -m yarn-cluster -p ${parallelism} -yjm ${jm} -ytm ${tm}
> $fullJarPath -s $savePointFullPath �Cc xxx*
>
>
>
> 比较无法理解的是,jm和tm日志都显示成功启动,但是无法看到从checkpoint恢复的记录如下图所示:
>
>
>
> 有知道的大佬知道是不是我哪里处理不正常么?
>
Reply | Threaded
Open this post in threaded view
|

答复: 从savepoint 启动以后,无法在checkpoint页面看到last restore的相关信息

范超
Hi 唐云哥,收到,我现在测试一下看看
感谢感谢


-----邮件原件-----
发件人: Yun Tang [mailto:[hidden email]]
发送时间: 2020年8月28日 星期五 13:58
收件人: user-zh <[hidden email]>
主题: Re: 从savepoint 启动以后,无法在checkpoint页面看到last restore的相关信息

Hi 范超

虽然看不到你的图,但是你的启动命令错误了,所有的options应该放在jar包文件地址前面[1]

  1.  class name 应该在 jar包地址前面 [2]
  2.  savepoint/checkpoint 地址应该在jar包地址前面 [3]

没有正确从checkpoint恢复的原因应该是这个原因

[1] https://ci.apache.org/projects/flink/flink-docs-stable/ops/cli.html#usage
[2] https://ci.apache.org/projects/flink/flink-docs-stable/ops/cli.html#job-submission-examples
[3] https://ci.apache.org/projects/flink/flink-docs-stable/ops/state/checkpoints.html#resuming-from-a-retained-checkpoint

祝好
唐云

________________________________
From: zilong xiao <[hidden email]>
Sent: Friday, August 28, 2020 11:45
To: user-zh <[hidden email]>
Subject: Re: 从savepoint 启动以后,无法在checkpoint页面看到last restore的相关信息

图挂了,用图床工具贴链接吧

范超 <[hidden email]> 于2020年8月28日周五 上午11:37写道:

> Hi, 大家好
>
> Flink版本 1.10.0
>
>
>
> 目前程序的checkpoint使用rocksdb的方式存储在hdfs上,在sink失败的时候能够正常从上一个checkpoint点恢复。
>
> 问题是由于升级程序,我使用了命令行
>
> *bin/flink stop -p ${hdfsSavepointDir} -d $runningJobId -yid
> $yarnAppId*
>
>
>
> 将savepoint文件保存,然后再使用保存的savepoint来启动程序
>
> */bin/flink run -d -m yarn-cluster -p ${parallelism} -yjm ${jm} -ytm
> ${tm} $fullJarPath -s $savePointFullPath �Cc xxx*
>
>
>
> 比较无法理解的是,jm和tm日志都显示成功启动,但是无法看到从checkpoint恢复的记录如下图所示:
>
>
>
> 有知道的大佬知道是不是我哪里处理不正常么?
>
Reply | Threaded
Open this post in threaded view
|

答复: 从savepoint 启动以后,无法在checkpoint页面看到last restore的相关信息

范超
In reply to this post by Yun Tang
谢谢云哥,可以了! 解决了我的大问题。


-----邮件原件-----
发件人: Yun Tang [mailto:[hidden email]]
发送时间: 2020年8月28日 星期五 13:58
收件人: user-zh <[hidden email]>
主题: Re: 从savepoint 启动以后,无法在checkpoint页面看到last restore的相关信息

Hi 范超

虽然看不到你的图,但是你的启动命令错误了,所有的options应该放在jar包文件地址前面[1]

  1.  class name 应该在 jar包地址前面 [2]
  2.  savepoint/checkpoint 地址应该在jar包地址前面 [3]

没有正确从checkpoint恢复的原因应该是这个原因

[1] https://ci.apache.org/projects/flink/flink-docs-stable/ops/cli.html#usage
[2] https://ci.apache.org/projects/flink/flink-docs-stable/ops/cli.html#job-submission-examples
[3] https://ci.apache.org/projects/flink/flink-docs-stable/ops/state/checkpoints.html#resuming-from-a-retained-checkpoint

祝好
唐云

________________________________
From: zilong xiao <[hidden email]>
Sent: Friday, August 28, 2020 11:45
To: user-zh <[hidden email]>
Subject: Re: 从savepoint 启动以后,无法在checkpoint页面看到last restore的相关信息

图挂了,用图床工具贴链接吧

范超 <[hidden email]> 于2020年8月28日周五 上午11:37写道:

> Hi, 大家好
>
> Flink版本 1.10.0
>
>
>
> 目前程序的checkpoint使用rocksdb的方式存储在hdfs上,在sink失败的时候能够正常从上一个checkpoint点恢复。
>
> 问题是由于升级程序,我使用了命令行
>
> *bin/flink stop -p ${hdfsSavepointDir} -d $runningJobId -yid
> $yarnAppId*
>
>
>
> 将savepoint文件保存,然后再使用保存的savepoint来启动程序
>
> */bin/flink run -d -m yarn-cluster -p ${parallelism} -yjm ${jm} -ytm
> ${tm} $fullJarPath -s $savePointFullPath �Cc xxx*
>
>
>
> 比较无法理解的是,jm和tm日志都显示成功启动,但是无法看到从checkpoint恢复的记录如下图所示:
>
>
>
> 有知道的大佬知道是不是我哪里处理不正常么?
>