貌似是个bug,我的版本是1.11.0
https://issues.apache.org/jira/browse/FLINK-18959?jql=project%20%3D%20FLINK%20AND%20issuetype%20%3D%20Bug%20AND%20text%20~%20%22history%20server%22 原始邮件 发件人: xiao cai<[hidden email]> 收件人: user-zh<[hidden email]> 发送时间: 2020年9月27日(周日) 18:41 主题: Re:Re:HistoryServer完成任务丢失的问题 貌似是个bug 原始邮件 发件人: xiao cai<[hidden email]> 收件人: user-zh<[hidden email]> 发送时间: 2020年9月27日(周日) 18:31 主题: Re:Re:HistoryServer完成任务丢失的问题 是在history server中没有,但是yarn logs还是可以看到的,我理解是任务结束前,jobManager没有upload文件到指定目录,所以history server没有拉取到。但是为何没有upload,我通过jobManager的日志也没看出来,没有任何报错。 原始邮件 发件人: Michael Ran<[hidden email]> 收件人: user-zh<[hidden email]> 发送时间: 2020年9月27日(周日) 17:06 主题: Re:Re:HistoryServer完成任务丢失的问题 你的意思是,日志彻底消失了?完全找不到? <br/>不会是你任务有问题,压根就没成功,没产生吧。 理论上日志不可能平白无故消失的 在 2020-09-27 17:03:45,"xiao cai" <[hidden email]> 写道: >是的,默认是10s一次,但是这个是去jobmanager的归档目录里拉取的间隔。 >问题是cancel的那次job,并没有上传日志信息到归档目录里。 > > > 原始邮件 >发件人: Michael Ran<[hidden email]> >收件人: user-zh<[hidden email]> >发送时间: 2020年9月27日(周日) 16:45 >主题: Re:HistoryServer完成任务丢失的问题 > > >history 记得是定时拉取的,有延迟过去 在 2020-09-27 16:40:27,"xiao cai" <[hidden email]> 写道: >Hi: >flink 1.11.0 >我启动了一个任务,当这个任务进行checkpoint的时候,我在webui中点击了cancel,任务在yarn中的状态时killed,但是再到history server中却找不到这个任务。同时我尝试了再yarn中kill application的方式,也是无法发现。这个问题有点随机,不是每次都会出现,有时候执行cancel,在history server又能看到。希望了解history serve相关原理的同学给予帮助。 >非常感谢。 > > > > >best, >xiao. |
修复方案为:https://issues.apache.org/jira/browse/FLINK-18959
xiao cai <[hidden email]> 于2020年9月27日周日 下午6:42写道: > 貌似是个bug,我的版本是1.11.0 > > > > https://issues.apache.org/jira/browse/FLINK-18959?jql=project%20%3D%20FLINK%20AND%20issuetype%20%3D%20Bug%20AND%20text%20~%20%22history%20server%22 > > > 原始邮件 > 发件人: xiao cai<[hidden email]> > 收件人: user-zh<[hidden email]> > 发送时间: 2020年9月27日(周日) 18:41 > 主题: Re:Re:HistoryServer完成任务丢失的问题 > > > 貌似是个bug > > > 原始邮件 > 发件人: xiao cai<[hidden email]> > 收件人: user-zh<[hidden email]> > 发送时间: 2020年9月27日(周日) 18:31 > 主题: Re:Re:HistoryServer完成任务丢失的问题 > > > 是在history server中没有,但是yarn > logs还是可以看到的,我理解是任务结束前,jobManager没有upload文件到指定目录,所以history > server没有拉取到。但是为何没有upload,我通过jobManager的日志也没看出来,没有任何报错。 原始邮件 发件人: Michael > Ran<[hidden email]> 收件人: user-zh<[hidden email]> 发送时间: > 2020年9月27日(周日) 17:06 主题: Re:Re:HistoryServer完成任务丢失的问题 你的意思是,日志彻底消失了?完全找不到? > <br/>不会是你任务有问题,压根就没成功,没产生吧。 理论上日志不可能平白无故消失的 在 2020-09-27 17:03:45,"xiao > cai" <[hidden email]> 写道: >是的,默认是10s一次,但是这个是去jobmanager的归档目录里拉取的间隔。 > >问题是cancel的那次job,并没有上传日志信息到归档目录里。 > > > 原始邮件 >发件人: Michael Ran< > [hidden email]> >收件人: user-zh<[hidden email]> >发送时间: > 2020年9月27日(周日) 16:45 >主题: Re:HistoryServer完成任务丢失的问题 > > >history > 记得是定时拉取的,有延迟过去 在 2020-09-27 16:40:27,"xiao cai" <[hidden email]> 写道: > >Hi: >flink 1.11.0 > >我启动了一个任务,当这个任务进行checkpoint的时候,我在webui中点击了cancel,任务在yarn中的状态时killed,但是再到history > server中却找不到这个任务。同时我尝试了再yarn中kill > application的方式,也是无法发现。这个问题有点随机,不是每次都会出现,有时候执行cancel,在history > server又能看到。希望了解history serve相关原理的同学给予帮助。 >非常感谢。 > > > > >best, >xiao. |
hi,我使用 1.10 测试过,发现 history server 查到 cancel job 的时间比较长(超过默认的 10s),但是最终还是会出现的。 刘建刚 <[hidden email]> 于2020年9月28日周一 下午4:13写道: 修复方案为:https://issues.apache.org/jira/browse/FLINK-18959 |
Free forum by Nabble | Edit this page |