Hi,
你是 on-yarn 的模式吗?
JobManager 并不是 worker,只是控制 Checkpoint ,接收 TM 的心跳等,可以看下在这个之前的其它日志。
还可以看下 ZK 是否正常等。
On-yarn 的话,也可以看下 NM 对这个AM处理 的日志。
Best,
Hailong Wang
在 2020-11-05 15:03:11,"赵一旦" <
[hidden email]> 写道:
>JobManager responsible for ff2118284beed21ac220ee7cc0a639c0 lost the
>leadership.
>
>
>
>这种错误原因是什么,会导致任务重启,本身压力大,突然重启使用10分钟前的ckpt,压力更大了。