关于standalone集群中JobManager进程卡顿的问题

classic Classic list List threaded Threaded
1 message Options
Reply | Threaded
Open this post in threaded view
|

关于standalone集群中JobManager进程卡顿的问题

nobleyd
如题,standalone集群,目前我部署的模式都是所有机器同时启动jobmanager(StandaloneSessionClusterEntrypoint)+taskmanager。

问题是发布任务,取消任务等操作的时候FlinkWebUI很卡顿,有时候仅卡顿之后恢复正常,有时候则可能导致整个集群直接多个结点陆续失效(slot变少,有时候会自动变回来,估计是网络问题)。

(1)请问,这个是因为JobManager进程所在机器性能问题嘛,如果我单独一台机器跑JobManager会不会好一点。
(2)之前我提过个问题,当时主要是说关于HA问题,讲的是zk的进程失败导致任务全部重启的问题。
这里希望有人帮忙总结下,Flink standalone集群,<1> Jobmanager进程失败(但没有全部失败,多个JobManager有)
<2> ZK进程失败(但不影响ZK服务,比如3结点只失败1个,并且这1个可能是leader结点) <3>
TaskManager进程失败对任务的影响是怎么样的。


对于<3>,目前我采用slot-spread那种策略,所以基本失败一个tm,任务肯定都全部自动基于最新ckpt重启,这个我接受,没啥问题。
那么对于<1>和<2>的理论表现是什么呢?

目前没做过多实验,但之前遇到过的,最起码<2>情况下导致过整个集群出问题(比如任务全部吃重启等)。