JobManager responsible for xxx lost the leadership.

classic Classic list List threaded Threaded
3 messages Options
Reply | Threaded
Open this post in threaded view
|

JobManager responsible for xxx lost the leadership.

nobleyd
JobManager responsible for ff2118284beed21ac220ee7cc0a639c0 lost the
leadership.



这种错误原因是什么,会导致任务重启,本身压力大,突然重启使用10分钟前的ckpt,压力更大了。
Reply | Threaded
Open this post in threaded view
|

Re:JobManager responsible for xxx lost the leadership.

hailongwang
Hi,
你是 on-yarn 的模式吗?
JobManager 并不是 worker,只是控制 Checkpoint ,接收 TM 的心跳等,可以看下在这个之前的其它日志。
还可以看下 ZK 是否正常等。
On-yarn 的话,也可以看下 NM 对这个AM处理 的日志。


Best,
Hailong Wang

在 2020-11-05 15:03:11,"赵一旦" <[hidden email]> 写道:
>JobManager responsible for ff2118284beed21ac220ee7cc0a639c0 lost the
>leadership.
>
>
>
>这种错误原因是什么,会导致任务重启,本身压力大,突然重启使用10分钟前的ckpt,压力更大了。
Reply | Threaded
Open this post in threaded view
|

Re: JobManager responsible for xxx lost the leadership.

nobleyd
standalone模式。

hailongwang <[hidden email]> 于2020年11月5日周四 下午8:55写道:

> Hi,
> 你是 on-yarn 的模式吗?
> JobManager 并不是 worker,只是控制 Checkpoint ,接收 TM 的心跳等,可以看下在这个之前的其它日志。
> 还可以看下 ZK 是否正常等。
> On-yarn 的话,也可以看下 NM 对这个AM处理 的日志。
>
>
> Best,
> Hailong Wang
>
> 在 2020-11-05 15:03:11,"赵一旦" <[hidden email]> 写道:
> >JobManager responsible for ff2118284beed21ac220ee7cc0a639c0 lost the
> >leadership.
> >
> >
> >
> >这种错误原因是什么,会导致任务重启,本身压力大,突然重启使用10分钟前的ckpt,压力更大了。
>