【问题分析】Fink任务无限反压

classic Classic list List threaded Threaded
9 messages Options
Reply | Threaded
Open this post in threaded view
|

【问题分析】Fink任务无限反压

nobleyd
该任务有时候正常,偶尔反压。
最近观察发现,反压时,kafkaSouce节点100%反压到停滞,后续算子什么也收不到,任务整体停滞。

这类错误遇到过很多次了,目前我生产中flink有个很大问题就是这些稳定性,压力大不是需要时间去追赶,而是压力一大就整体处于停滞状态。
Reply | Threaded
Open this post in threaded view
|

Re: 【问题分析】Fink任务无限反压

LakeShen
你可以先结合你的任务逻辑,以及 Flink  Web UI 反压监控,看看到底是什么地方引起反压。
一般 source 反压,是下游的算子一直反压到 source。可以看看那个算子引起

Best,
LakeShen


yidan zhao <[hidden email]> 于2021年6月8日周二 上午10:28写道:

> 该任务有时候正常,偶尔反压。
> 最近观察发现,反压时,kafkaSouce节点100%反压到停滞,后续算子什么也收不到,任务整体停滞。
>
> 这类错误遇到过很多次了,目前我生产中flink有个很大问题就是这些稳定性,压力大不是需要时间去追赶,而是压力一大就整体处于停滞状态。
>
Reply | Threaded
Open this post in threaded view
|

Re: 【问题分析】Fink任务无限反压

HunterXHunter
In reply to this post by nobleyd
掐头去尾的提问,完全不知道是什么问题,没法回答你,最好是贴出代码,贴出图片等大家才能帮忙分析



--
Sent from: http://apache-flink.147419.n8.nabble.com/
Reply | Threaded
Open this post in threaded view
|

Re: 【问题分析】Fink任务无限反压

nobleyd
In reply to this post by LakeShen
正常的反压遇到过很多,也解决过很多。  但我现在这个问题类似的也是很多次了,很奇怪。就是反压到CPU利用率反而成0,就是不工作了。

LakeShen <[hidden email]> 于2021年6月8日周二 上午10:37写道:

>
> 你可以先结合你的任务逻辑,以及 Flink  Web UI 反压监控,看看到底是什么地方引起反压。
> 一般 source 反压,是下游的算子一直反压到 source。可以看看那个算子引起
>
> Best,
> LakeShen
>
>
> yidan zhao <[hidden email]> 于2021年6月8日周二 上午10:28写道:
>
> > 该任务有时候正常,偶尔反压。
> > 最近观察发现,反压时,kafkaSouce节点100%反压到停滞,后续算子什么也收不到,任务整体停滞。
> >
> > 这类错误遇到过很多次了,目前我生产中flink有个很大问题就是这些稳定性,压力大不是需要时间去追赶,而是压力一大就整体处于停滞状态。
> >
Reply | Threaded
Open this post in threaded view
|

Re:Re: 【问题分析】Fink任务无限反压

东东
反压也可能是下游IO跟不上造成的啊,严重的话上游确实就不工作了呗




在 2021-06-08 11:11:34,"yidan zhao" <[hidden email]> 写道:

>正常的反压遇到过很多,也解决过很多。  但我现在这个问题类似的也是很多次了,很奇怪。就是反压到CPU利用率反而成0,就是不工作了。
>
>LakeShen <[hidden email]> 于2021年6月8日周二 上午10:37写道:
>>
>> 你可以先结合你的任务逻辑,以及 Flink  Web UI 反压监控,看看到底是什么地方引起反压。
>> 一般 source 反压,是下游的算子一直反压到 source。可以看看那个算子引起
>>
>> Best,
>> LakeShen
>>
>>
>> yidan zhao <[hidden email]> 于2021年6月8日周二 上午10:28写道:
>>
>> > 该任务有时候正常,偶尔反压。
>> > 最近观察发现,反压时,kafkaSouce节点100%反压到停滞,后续算子什么也收不到,任务整体停滞。
>> >
>> > 这类错误遇到过很多次了,目前我生产中flink有个很大问题就是这些稳定性,压力大不是需要时间去追赶,而是压力一大就整体处于停滞状态。
>> >
Reply | Threaded
Open this post in threaded view
|

Re: 【问题分析】Fink任务无限反压

nobleyd
In reply to this post by HunterXHunter
怎么说的,这个应该不是代码层面的问题,所以感觉贴代码意义不大。
我是想看有没有类似的什么idea,什么情况可能呈现类似现象。 就是直接停滞了,我发现的时候所有算子都非反压,只要source处于反压状态。
然后source到下一个算子直接的records sent和records received数量已经彻底不变(眼看好几分钟也不变)。

HunterXHunter <[hidden email]> 于2021年6月8日周二 上午11:13写道:
>
> 掐头去尾的提问,完全不知道是什么问题,没法回答你,最好是贴出代码,贴出图片等大家才能帮忙分析
>
>
>
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/
smq
Reply | Threaded
Open this post in threaded view
|

回复:【问题分析】Fink任务无限反压

smq
之前遇到过在sink到kudu的时候出现反压很严重,主要原因是测试数据不当的问题,根据我的经验,比较多的是下游io瓶颈,可以到sink组件的日志查看问题





------------------ 原始邮件 ------------------
发件人: yidan zhao <[hidden email]&gt;
发送时间: 2021年6月8日 11:18
收件人: user-zh <[hidden email]&gt;
主题: 回复:【问题分析】Fink任务无限反压



怎么说的,这个应该不是代码层面的问题,所以感觉贴代码意义不大。
我是想看有没有类似的什么idea,什么情况可能呈现类似现象。 就是直接停滞了,我发现的时候所有算子都非反压,只要source处于反压状态。
然后source到下一个算子直接的records sent和records received数量已经彻底不变(眼看好几分钟也不变)。

HunterXHunter <[hidden email]&gt; 于2021年6月8日周二 上午11:13写道:
&gt;
&gt; 掐头去尾的提问,完全不知道是什么问题,没法回答你,最好是贴出代码,贴出图片等大家才能帮忙分析
&gt;
&gt;
&gt;
&gt; --
&gt; Sent from: http://apache-flink.147419.n8.nabble.com/
Reply | Threaded
Open this post in threaded view
|

Re:Re: 【问题分析】Fink任务无限反压

13631283359
In reply to this post by LakeShen









1.不知道这边有没有flink数据链路监控
2.flink反压可能有以下几种原因:
数据倾斜
TaskManager配置内存太小,导致full gc
checkpoint太慢
状态太大








在 2021-06-08 10:36:49,"LakeShen" <[hidden email]> 写道:

>你可以先结合你的任务逻辑,以及 Flink  Web UI 反压监控,看看到底是什么地方引起反压。
>一般 source 反压,是下游的算子一直反压到 source。可以看看那个算子引起
>
>Best,
>LakeShen
>
>
>yidan zhao <[hidden email]> 于2021年6月8日周二 上午10:28写道:
>
>> 该任务有时候正常,偶尔反压。
>> 最近观察发现,反压时,kafkaSouce节点100%反压到停滞,后续算子什么也收不到,任务整体停滞。
>>
>> 这类错误遇到过很多次了,目前我生产中flink有个很大问题就是这些稳定性,压力大不是需要时间去追赶,而是压力一大就整体处于停滞状态。
>>
Reply | Threaded
Open this post in threaded view
|

Re: Re: 【问题分析】Fink任务无限反压

nobleyd
目前遇到个报错,这个有人看得懂不。
org.apache.flink.runtime.io.network.netty.exception.LocalTransportException:
readAddress(..) failed: Connection timed out (connection to
'10.35.213.143/10.35.213.143:2008')
    at org.apache.flink.runtime.io.network.netty.CreditBasedPartitionRequestClientHandler.exceptionCaught(CreditBasedPartitionRequestClientHandler.java:173)
    at org.apache.flink.shaded.netty4.io.netty.channel.AbstractChannelHandlerContext.invokeExceptionCaught(AbstractChannelHandlerContext.java:302)
    at org.apache.flink.shaded.netty4.io.netty.channel.AbstractChannelHandlerContext.invokeExceptionCaught(AbstractChannelHandlerContext.java:281)
    at org.apache.flink.shaded.netty4.io.netty.channel.AbstractChannelHandlerContext.fireExceptionCaught(AbstractChannelHandlerContext.java:273)
    at org.apache.flink.shaded.netty4.io.netty.channel.DefaultChannelPipeline$HeadContext.exceptionCaught(DefaultChannelPipeline.java:1377)
    at org.apache.flink.shaded.netty4.io.netty.channel.AbstractChannelHandlerContext.invokeExceptionCaught(AbstractChannelHandlerContext.java:302)
    at org.apache.flink.shaded.netty4.io.netty.channel.AbstractChannelHandlerContext.invokeExceptionCaught(AbstractChannelHandlerContext.java:281)
    at org.apache.flink.shaded.netty4.io.netty.channel.DefaultChannelPipeline.fireExceptionCaught(DefaultChannelPipeline.java:907)
    at org.apache.flink.shaded.netty4.io.netty.channel.epoll.AbstractEpollStreamChannel$EpollStreamUnsafe.handleReadException(AbstractEpollStreamChannel.java:728)
    at org.apache.flink.shaded.netty4.io.netty.channel.epoll.AbstractEpollStreamChannel$EpollStreamUnsafe.epollInReady(AbstractEpollStreamChannel.java:818)
    at org.apache.flink.shaded.netty4.io.netty.channel.epoll.EpollEventLoop.processReady(EpollEventLoop.java:475)
    at org.apache.flink.shaded.netty4.io.netty.channel.epoll.EpollEventLoop.run(EpollEventLoop.java:378)
    at org.apache.flink.shaded.netty4.io.netty.util.concurrent.SingleThreadEventExecutor$4.run(SingleThreadEventExecutor.java:989)
    at org.apache.flink.shaded.netty4.io.netty.util.internal.ThreadExecutorMap$2.run(ThreadExecutorMap.java:74)
    at java.lang.Thread.run(Thread.java:748)
Caused by: org.apache.flink.shaded.netty4.io.netty.channel.unix.Errors$NativeIoException:
readAddress(..) failed: Connection timed out

13631283359 <[hidden email]> 于2021年6月8日周二 下午3:41写道:

>
>
>
>
>
>
>
>
>
>
> 1.不知道这边有没有flink数据链路监控
> 2.flink反压可能有以下几种原因:
> 数据倾斜
> TaskManager配置内存太小,导致full gc
> checkpoint太慢
> 状态太大
>
>
>
>
>
>
>
>
> 在 2021-06-08 10:36:49,"LakeShen" <[hidden email]> 写道:
> >你可以先结合你的任务逻辑,以及 Flink  Web UI 反压监控,看看到底是什么地方引起反压。
> >一般 source 反压,是下游的算子一直反压到 source。可以看看那个算子引起
> >
> >Best,
> >LakeShen
> >
> >
> >yidan zhao <[hidden email]> 于2021年6月8日周二 上午10:28写道:
> >
> >> 该任务有时候正常,偶尔反压。
> >> 最近观察发现,反压时,kafkaSouce节点100%反压到停滞,后续算子什么也收不到,任务整体停滞。
> >>
> >> 这类错误遇到过很多次了,目前我生产中flink有个很大问题就是这些稳定性,压力大不是需要时间去追赶,而是压力一大就整体处于停滞状态。
> >>