flink heartbeat timeout

classic Classic list List threaded Threaded
2 messages Options
Reply | Threaded
Open this post in threaded view
|

flink heartbeat timeout

guoxb__123@sina.com
Hi

问题描述:
 我在使用flink进行流式计算任务,我的程序造昨晚上21点启动的,当时看是正常的,数据也是正常处理的,在今早9点时候查看,任务被自动重启了,查看日志,报错如下:
    
    从报错上来看是由于超时时间引起的,查看资料,是需要调整该参数参数:heartbeat.timeout,官网文档支出默认值是50000,但是这样以来的话,就需要重启flink服务了,这在我们生产上是不允许的。

问题:
    1、该错误的原因目前只是经过猜测,还没有确定具体的问题,希望有经验的朋友指点一二,万分感谢
    2、如果我真的需要设置heartbeat.timeout这个参数的话,如何在不通过重启flink集群的方式来实现,万分感谢
说明:
    我的flink版本是:1.11.0

Reply | Threaded
Open this post in threaded view
|

Re: flink heartbeat timeout

Xintong Song
1. 50s 的 timeout 时间通常应该是够用的。建议排查一下 timeout 当时环境中是否存在网络抖动,或者 JM/TM 进程是否存在长时间
GC 导致不响应。
2. 目前 flink 集群配置无法做到不重启热更新

Thank you~

Xintong Song



On Thu, Jan 21, 2021 at 11:39 AM [hidden email] <[hidden email]>
wrote:

> Hi
>
> *问题描述:*
>
>  我在使用flink进行流式计算任务,我的程序造昨晚上21点启动的,当时看是正常的,数据也是正常处理的,在今早9点时候查看,任务被自动重启了,查看日志,报错如下:
>
>     从报错上来看是由于超时时间引起的,查看资料,是需要调整该参数参数:
> heartbeat.timeout,官网文档支出默认值是50000,但是这样以来的话,就需要重启flink服务了,这在我们生产上是不允许的。
>
> *问题:*
>     1、该错误的原因目前只是经过猜测,还没有确定具体的问题,希望有经验的朋友指点一二,万分感谢
>     2、如果我真的需要设置heartbeat.timeout这个参数的话,如何在不通过重启flink集群的方式来实现,万分感谢
> 说明:
>     我的flink版本是:1.11.0
> ------------------------------
> [hidden email]
>