1. 50s 的 timeout 时间通常应该是够用的。建议排查一下 timeout 当时环境中是否存在网络抖动,或者 JM/TM 进程是否存在长时间
GC 导致不响应。
2. 目前 flink 集群配置无法做到不重启热更新
Thank you~
Xintong Song
On Thu, Jan 21, 2021 at 11:39 AM
[hidden email] <
[hidden email]>
wrote:
> Hi
>
> *问题描述:*
>
> 我在使用flink进行流式计算任务,我的程序造昨晚上21点启动的,当时看是正常的,数据也是正常处理的,在今早9点时候查看,任务被自动重启了,查看日志,报错如下:
>
> 从报错上来看是由于超时时间引起的,查看资料,是需要调整该参数参数:
> heartbeat.timeout,官网文档支出默认值是50000,但是这样以来的话,就需要重启flink服务了,这在我们生产上是不允许的。
>
> *问题:*
> 1、该错误的原因目前只是经过猜测,还没有确定具体的问题,希望有经验的朋友指点一二,万分感谢
> 2、如果我真的需要设置heartbeat.timeout这个参数的话,如何在不通过重启flink集群的方式来实现,万分感谢
> 说明:
> 我的flink版本是:1.11.0
> ------------------------------
>
[hidden email]
>