Hi, 大家好 Flink版本 1.10.0 目前程序的checkpoint使用rocksdb的方式存储在hdfs上,在sink失败的时候能够正常从上一个checkpoint点恢复。 问题是由于升级程序,我使用了命令行 bin/flink stop -p ${hdfsSavepointDir} -d $runningJobId -yid $yarnAppId 将savepoint文件保存,然后再使用保存的savepoint来启动程序 /bin/flink run -d -m yarn-cluster -p ${parallelism} -yjm ${jm} -ytm ${tm} $fullJarPath
-s $savePointFullPath �Cc xxx 比较无法理解的是,jm和tm日志都显示成功启动,但是无法看到从checkpoint恢复的记录如下图所示: 有知道的大佬知道是不是我哪里处理不正常么? |
图挂了,用图床工具贴链接吧
范超 <[hidden email]> 于2020年8月28日周五 上午11:37写道: > Hi, 大家好 > > Flink版本 1.10.0 > > > > 目前程序的checkpoint使用rocksdb的方式存储在hdfs上,在sink失败的时候能够正常从上一个checkpoint点恢复。 > > 问题是由于升级程序,我使用了命令行 > > *bin/flink stop -p ${hdfsSavepointDir} -d $runningJobId -yid $yarnAppId* > > > > 将savepoint文件保存,然后再使用保存的savepoint来启动程序 > > */bin/flink run -d -m yarn-cluster -p ${parallelism} -yjm ${jm} -ytm ${tm} > $fullJarPath -s $savePointFullPath –c xxx* > > > > 比较无法理解的是,jm和tm日志都显示成功启动,但是无法看到从checkpoint恢复的记录如下图所示: > > > > 有知道的大佬知道是不是我哪里处理不正常么? > |
Hi 范超
虽然看不到你的图,但是你的启动命令错误了,所有的options应该放在jar包文件地址前面[1] 1. class name 应该在 jar包地址前面 [2] 2. savepoint/checkpoint 地址应该在jar包地址前面 [3] 没有正确从checkpoint恢复的原因应该是这个原因 [1] https://ci.apache.org/projects/flink/flink-docs-stable/ops/cli.html#usage [2] https://ci.apache.org/projects/flink/flink-docs-stable/ops/cli.html#job-submission-examples [3] https://ci.apache.org/projects/flink/flink-docs-stable/ops/state/checkpoints.html#resuming-from-a-retained-checkpoint 祝好 唐云 ________________________________ From: zilong xiao <[hidden email]> Sent: Friday, August 28, 2020 11:45 To: user-zh <[hidden email]> Subject: Re: 从savepoint 启动以后,无法在checkpoint页面看到last restore的相关信息 图挂了,用图床工具贴链接吧 范超 <[hidden email]> 于2020年8月28日周五 上午11:37写道: > Hi, 大家好 > > Flink版本 1.10.0 > > > > 目前程序的checkpoint使用rocksdb的方式存储在hdfs上,在sink失败的时候能够正常从上一个checkpoint点恢复。 > > 问题是由于升级程序,我使用了命令行 > > *bin/flink stop -p ${hdfsSavepointDir} -d $runningJobId -yid $yarnAppId* > > > > 将savepoint文件保存,然后再使用保存的savepoint来启动程序 > > */bin/flink run -d -m yarn-cluster -p ${parallelism} -yjm ${jm} -ytm ${tm} > $fullJarPath -s $savePointFullPath �Cc xxx* > > > > 比较无法理解的是,jm和tm日志都显示成功启动,但是无法看到从checkpoint恢复的记录如下图所示: > > > > 有知道的大佬知道是不是我哪里处理不正常么? > |
Hi 唐云哥,收到,我现在测试一下看看
感谢感谢 -----邮件原件----- 发件人: Yun Tang [mailto:[hidden email]] 发送时间: 2020年8月28日 星期五 13:58 收件人: user-zh <[hidden email]> 主题: Re: 从savepoint 启动以后,无法在checkpoint页面看到last restore的相关信息 Hi 范超 虽然看不到你的图,但是你的启动命令错误了,所有的options应该放在jar包文件地址前面[1] 1. class name 应该在 jar包地址前面 [2] 2. savepoint/checkpoint 地址应该在jar包地址前面 [3] 没有正确从checkpoint恢复的原因应该是这个原因 [1] https://ci.apache.org/projects/flink/flink-docs-stable/ops/cli.html#usage [2] https://ci.apache.org/projects/flink/flink-docs-stable/ops/cli.html#job-submission-examples [3] https://ci.apache.org/projects/flink/flink-docs-stable/ops/state/checkpoints.html#resuming-from-a-retained-checkpoint 祝好 唐云 ________________________________ From: zilong xiao <[hidden email]> Sent: Friday, August 28, 2020 11:45 To: user-zh <[hidden email]> Subject: Re: 从savepoint 启动以后,无法在checkpoint页面看到last restore的相关信息 图挂了,用图床工具贴链接吧 范超 <[hidden email]> 于2020年8月28日周五 上午11:37写道: > Hi, 大家好 > > Flink版本 1.10.0 > > > > 目前程序的checkpoint使用rocksdb的方式存储在hdfs上,在sink失败的时候能够正常从上一个checkpoint点恢复。 > > 问题是由于升级程序,我使用了命令行 > > *bin/flink stop -p ${hdfsSavepointDir} -d $runningJobId -yid > $yarnAppId* > > > > 将savepoint文件保存,然后再使用保存的savepoint来启动程序 > > */bin/flink run -d -m yarn-cluster -p ${parallelism} -yjm ${jm} -ytm > ${tm} $fullJarPath -s $savePointFullPath �Cc xxx* > > > > 比较无法理解的是,jm和tm日志都显示成功启动,但是无法看到从checkpoint恢复的记录如下图所示: > > > > 有知道的大佬知道是不是我哪里处理不正常么? > |
In reply to this post by Yun Tang
谢谢云哥,可以了! 解决了我的大问题。
-----邮件原件----- 发件人: Yun Tang [mailto:[hidden email]] 发送时间: 2020年8月28日 星期五 13:58 收件人: user-zh <[hidden email]> 主题: Re: 从savepoint 启动以后,无法在checkpoint页面看到last restore的相关信息 Hi 范超 虽然看不到你的图,但是你的启动命令错误了,所有的options应该放在jar包文件地址前面[1] 1. class name 应该在 jar包地址前面 [2] 2. savepoint/checkpoint 地址应该在jar包地址前面 [3] 没有正确从checkpoint恢复的原因应该是这个原因 [1] https://ci.apache.org/projects/flink/flink-docs-stable/ops/cli.html#usage [2] https://ci.apache.org/projects/flink/flink-docs-stable/ops/cli.html#job-submission-examples [3] https://ci.apache.org/projects/flink/flink-docs-stable/ops/state/checkpoints.html#resuming-from-a-retained-checkpoint 祝好 唐云 ________________________________ From: zilong xiao <[hidden email]> Sent: Friday, August 28, 2020 11:45 To: user-zh <[hidden email]> Subject: Re: 从savepoint 启动以后,无法在checkpoint页面看到last restore的相关信息 图挂了,用图床工具贴链接吧 范超 <[hidden email]> 于2020年8月28日周五 上午11:37写道: > Hi, 大家好 > > Flink版本 1.10.0 > > > > 目前程序的checkpoint使用rocksdb的方式存储在hdfs上,在sink失败的时候能够正常从上一个checkpoint点恢复。 > > 问题是由于升级程序,我使用了命令行 > > *bin/flink stop -p ${hdfsSavepointDir} -d $runningJobId -yid > $yarnAppId* > > > > 将savepoint文件保存,然后再使用保存的savepoint来启动程序 > > */bin/flink run -d -m yarn-cluster -p ${parallelism} -yjm ${jm} -ytm > ${tm} $fullJarPath -s $savePointFullPath �Cc xxx* > > > > 比较无法理解的是,jm和tm日志都显示成功启动,但是无法看到从checkpoint恢复的记录如下图所示: > > > > 有知道的大佬知道是不是我哪里处理不正常么? > |
Free forum by Nabble | Edit this page |