Re:Re:HistoryServer完成任务丢失的问题

classic Classic list List threaded Threaded
3 messages Options
Reply | Threaded
Open this post in threaded view
|

Re:Re:HistoryServer完成任务丢失的问题

xiao cai
貌似是个bug,我的版本是1.11.0


https://issues.apache.org/jira/browse/FLINK-18959?jql=project%20%3D%20FLINK%20AND%20issuetype%20%3D%20Bug%20AND%20text%20~%20%22history%20server%22


 原始邮件
发件人: xiao cai<[hidden email]>
收件人: user-zh<[hidden email]>
发送时间: 2020年9月27日(周日) 18:41
主题: Re:Re:HistoryServer完成任务丢失的问题


貌似是个bug


 原始邮件
发件人: xiao cai<[hidden email]>
收件人: user-zh<[hidden email]>
发送时间: 2020年9月27日(周日) 18:31
主题: Re:Re:HistoryServer完成任务丢失的问题


是在history server中没有,但是yarn logs还是可以看到的,我理解是任务结束前,jobManager没有upload文件到指定目录,所以history server没有拉取到。但是为何没有upload,我通过jobManager的日志也没看出来,没有任何报错。 原始邮件 发件人: Michael Ran<[hidden email]> 收件人: user-zh<[hidden email]> 发送时间: 2020年9月27日(周日) 17:06 主题: Re:Re:HistoryServer完成任务丢失的问题 你的意思是,日志彻底消失了?完全找不到? <br/>不会是你任务有问题,压根就没成功,没产生吧。 理论上日志不可能平白无故消失的 在 2020-09-27 17:03:45,"xiao cai" <[hidden email]> 写道: >是的,默认是10s一次,但是这个是去jobmanager的归档目录里拉取的间隔。 >问题是cancel的那次job,并没有上传日志信息到归档目录里。 > > > 原始邮件 >发件人: Michael Ran<[hidden email]> >收件人: user-zh<[hidden email]> >发送时间: 2020年9月27日(周日) 16:45 >主题: Re:HistoryServer完成任务丢失的问题 > > >history 记得是定时拉取的,有延迟过去 在 2020-09-27 16:40:27,"xiao cai" <[hidden email]> 写道: >Hi: >flink 1.11.0 >我启动了一个任务,当这个任务进行checkpoint的时候,我在webui中点击了cancel,任务在yarn中的状态时killed,但是再到history server中却找不到这个任务。同时我尝试了再yarn中kill application的方式,也是无法发现。这个问题有点随机,不是每次都会出现,有时候执行cancel,在history server又能看到。希望了解history serve相关原理的同学给予帮助。 >非常感谢。 > > > > >best, >xiao.
Reply | Threaded
Open this post in threaded view
|

Re: Re:HistoryServer完成任务丢失的问题

liujiangang
修复方案为:https://issues.apache.org/jira/browse/FLINK-18959

xiao cai <[hidden email]> 于2020年9月27日周日 下午6:42写道:

> 貌似是个bug,我的版本是1.11.0
>
>
>
> https://issues.apache.org/jira/browse/FLINK-18959?jql=project%20%3D%20FLINK%20AND%20issuetype%20%3D%20Bug%20AND%20text%20~%20%22history%20server%22
>
>
>  原始邮件
> 发件人: xiao cai<[hidden email]>
> 收件人: user-zh<[hidden email]>
> 发送时间: 2020年9月27日(周日) 18:41
> 主题: Re:Re:HistoryServer完成任务丢失的问题
>
>
> 貌似是个bug
>
>
>  原始邮件
> 发件人: xiao cai<[hidden email]>
> 收件人: user-zh<[hidden email]>
> 发送时间: 2020年9月27日(周日) 18:31
> 主题: Re:Re:HistoryServer完成任务丢失的问题
>
>
> 是在history server中没有,但是yarn
> logs还是可以看到的,我理解是任务结束前,jobManager没有upload文件到指定目录,所以history
> server没有拉取到。但是为何没有upload,我通过jobManager的日志也没看出来,没有任何报错。 原始邮件 发件人: Michael
> Ran<[hidden email]> 收件人: user-zh<[hidden email]> 发送时间:
> 2020年9月27日(周日) 17:06 主题: Re:Re:HistoryServer完成任务丢失的问题 你的意思是,日志彻底消失了?完全找不到?
> <br/>不会是你任务有问题,压根就没成功,没产生吧。 理论上日志不可能平白无故消失的 在 2020-09-27 17:03:45,"xiao
> cai" <[hidden email]> 写道: >是的,默认是10s一次,但是这个是去jobmanager的归档目录里拉取的间隔。
> >问题是cancel的那次job,并没有上传日志信息到归档目录里。 > > > 原始邮件 >发件人: Michael Ran<
> [hidden email]> >收件人: user-zh<[hidden email]> >发送时间:
> 2020年9月27日(周日) 16:45 >主题: Re:HistoryServer完成任务丢失的问题 > > >history
> 记得是定时拉取的,有延迟过去 在 2020-09-27 16:40:27,"xiao cai" <[hidden email]> 写道:
> >Hi: >flink 1.11.0
> >我启动了一个任务,当这个任务进行checkpoint的时候,我在webui中点击了cancel,任务在yarn中的状态时killed,但是再到history
> server中却找不到这个任务。同时我尝试了再yarn中kill
> application的方式,也是无法发现。这个问题有点随机,不是每次都会出现,有时候执行cancel,在history
> server又能看到。希望了解history serve相关原理的同学给予帮助。 >非常感谢。 > > > > >best, >xiao.
Reply | Threaded
Open this post in threaded view
|

Re: Re:HistoryServer完成任务丢失的问题

zhisheng
hi,我使用 1.10 测试过,发现 history server 查到 cancel job 的时间比较长(超过默认的 10s),但是最终还是会出现的。


刘建刚 <[hidden email]> 于2020年9月28日周一 下午4:13写道:
修复方案为:https://issues.apache.org/jira/browse/FLINK-18959

xiao cai <[hidden email]> 于2020年9月27日周日 下午6:42写道:

> 貌似是个bug,我的版本是1.11.0
>
>
>
> https://issues.apache.org/jira/browse/FLINK-18959?jql=project%20%3D%20FLINK%20AND%20issuetype%20%3D%20Bug%20AND%20text%20~%20%22history%20server%22
>
>
>  原始邮件
> 发件人: xiao cai<[hidden email]>
> 收件人: user-zh<[hidden email]>
> 发送时间: 2020年9月27日(周日) 18:41
> 主题: Re:Re:HistoryServer完成任务丢失的问题
>
>
> 貌似是个bug
>
>
>  原始邮件
> 发件人: xiao cai<[hidden email]>
> 收件人: user-zh<[hidden email]>
> 发送时间: 2020年9月27日(周日) 18:31
> 主题: Re:Re:HistoryServer完成任务丢失的问题
>
>
> 是在history server中没有,但是yarn
> logs还是可以看到的,我理解是任务结束前,jobManager没有upload文件到指定目录,所以history
> server没有拉取到。但是为何没有upload,我通过jobManager的日志也没看出来,没有任何报错。 原始邮件 发件人: Michael
> Ran<[hidden email]> 收件人: user-zh<[hidden email]> 发送时间:
> 2020年9月27日(周日) 17:06 主题: Re:Re:HistoryServer完成任务丢失的问题 你的意思是,日志彻底消失了?完全找不到?
> <br/>不会是你任务有问题,压根就没成功,没产生吧。 理论上日志不可能平白无故消失的 在 2020-09-27 17:03:45,"xiao
> cai" <[hidden email]> 写道: >是的,默认是10s一次,但是这个是去jobmanager的归档目录里拉取的间隔。
> >问题是cancel的那次job,并没有上传日志信息到归档目录里。 > > > 原始邮件 >发件人: Michael Ran<
> [hidden email]> >收件人: user-zh<[hidden email]> >发送时间:
> 2020年9月27日(周日) 16:45 >主题: Re:HistoryServer完成任务丢失的问题 > > >history
> 记得是定时拉取的,有延迟过去 在 2020-09-27 16:40:27,"xiao cai" <[hidden email]> 写道:
> >Hi: >flink 1.11.0
> >我启动了一个任务,当这个任务进行checkpoint的时候,我在webui中点击了cancel,任务在yarn中的状态时killed,但是再到history
> server中却找不到这个任务。同时我尝试了再yarn中kill
> application的方式,也是无法发现。这个问题有点随机,不是每次都会出现,有时候执行cancel,在history
> server又能看到。希望了解history serve相关原理的同学给予帮助。 >非常感谢。 > > > > >best, >xiao.