Apache Flink 中文用户邮件列表

【问题分析】Fink任务无限反压

Classic

List

Threaded

9 messages Options

nobleyd

【问题分析】Fink任务无限反压

该任务有时候正常，偶尔反压。
最近观察发现，反压时，kafkaSouce节点100%反压到停滞，后续算子什么也收不到，任务整体停滞。

这类错误遇到过很多次了，目前我生产中flink有个很大问题就是这些稳定性，压力大不是需要时间去追赶，而是压力一大就整体处于停滞状态。

LakeShen

Re: 【问题分析】Fink任务无限反压

你可以先结合你的任务逻辑，以及 Flink Web UI 反压监控，看看到底是什么地方引起反压。
一般 source 反压，是下游的算子一直反压到 source。可以看看那个算子引起

Best,
LakeShen

yidan zhao <[hidden email]> 于2021年6月8日周二上午10:28写道：

> 该任务有时候正常，偶尔反压。
> 最近观察发现，反压时，kafkaSouce节点100%反压到停滞，后续算子什么也收不到，任务整体停滞。
>
> 这类错误遇到过很多次了，目前我生产中flink有个很大问题就是这些稳定性，压力大不是需要时间去追赶，而是压力一大就整体处于停滞状态。
>

HunterXHunter

Re: 【问题分析】Fink任务无限反压

In reply to this post by nobleyd

掐头去尾的提问，完全不知道是什么问题，没法回答你，最好是贴出代码，贴出图片等大家才能帮忙分析

--
Sent from: http://apache-flink.147419.n8.nabble.com/

nobleyd

Re: 【问题分析】Fink任务无限反压

In reply to this post by LakeShen

正常的反压遇到过很多，也解决过很多。但我现在这个问题类似的也是很多次了，很奇怪。就是反压到CPU利用率反而成0，就是不工作了。

LakeShen <[hidden email]> 于2021年6月8日周二上午10:37写道：

>
> 你可以先结合你的任务逻辑，以及 Flink Web UI 反压监控，看看到底是什么地方引起反压。
> 一般 source 反压，是下游的算子一直反压到 source。可以看看那个算子引起
>
> Best,
> LakeShen
>
>
> yidan zhao <[hidden email]> 于2021年6月8日周二上午10:28写道：
>
> > 该任务有时候正常，偶尔反压。
> > 最近观察发现，反压时，kafkaSouce节点100%反压到停滞，后续算子什么也收不到，任务整体停滞。
> >
> > 这类错误遇到过很多次了，目前我生产中flink有个很大问题就是这些稳定性，压力大不是需要时间去追赶，而是压力一大就整体处于停滞状态。
> >

东东

Re:Re: 【问题分析】Fink任务无限反压

反压也可能是下游IO跟不上造成的啊，严重的话上游确实就不工作了呗

在 2021-06-08 11:11:34，"yidan zhao" <[hidden email]> 写道：

>正常的反压遇到过很多，也解决过很多。但我现在这个问题类似的也是很多次了，很奇怪。就是反压到CPU利用率反而成0，就是不工作了。
>
>LakeShen <[hidden email]> 于2021年6月8日周二上午10:37写道：
>>
>> 你可以先结合你的任务逻辑，以及 Flink Web UI 反压监控，看看到底是什么地方引起反压。
>> 一般 source 反压，是下游的算子一直反压到 source。可以看看那个算子引起
>>
>> Best,
>> LakeShen
>>
>>
>> yidan zhao <[hidden email]> 于2021年6月8日周二上午10:28写道：
>>
>> > 该任务有时候正常，偶尔反压。
>> > 最近观察发现，反压时，kafkaSouce节点100%反压到停滞，后续算子什么也收不到，任务整体停滞。
>> >
>> > 这类错误遇到过很多次了，目前我生产中flink有个很大问题就是这些稳定性，压力大不是需要时间去追赶，而是压力一大就整体处于停滞状态。
>> >

nobleyd

Re: 【问题分析】Fink任务无限反压

In reply to this post by HunterXHunter

怎么说的，这个应该不是代码层面的问题，所以感觉贴代码意义不大。
我是想看有没有类似的什么idea，什么情况可能呈现类似现象。就是直接停滞了，我发现的时候所有算子都非反压，只要source处于反压状态。
然后source到下一个算子直接的records sent和records received数量已经彻底不变（眼看好几分钟也不变）。

HunterXHunter <[hidden email]> 于2021年6月8日周二上午11:13写道：
>
> 掐头去尾的提问，完全不知道是什么问题，没法回答你，最好是贴出代码，贴出图片等大家才能帮忙分析
>
>
>
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/

smq

回复：【问题分析】Fink任务无限反压

之前遇到过在sink到kudu的时候出现反压很严重，主要原因是测试数据不当的问题，根据我的经验，比较多的是下游io瓶颈，可以到sink组件的日志查看问题

------------------ 原始邮件 ------------------
发件人: yidan zhao <[hidden email]>
发送时间: 2021年6月8日 11:18
收件人: user-zh <[hidden email]>
主题: 回复：【问题分析】Fink任务无限反压

怎么说的，这个应该不是代码层面的问题，所以感觉贴代码意义不大。
我是想看有没有类似的什么idea，什么情况可能呈现类似现象。就是直接停滞了，我发现的时候所有算子都非反压，只要source处于反压状态。
然后source到下一个算子直接的records sent和records received数量已经彻底不变（眼看好几分钟也不变）。

HunterXHunter <[hidden email]> 于2021年6月8日周二上午11:13写道：
>
> 掐头去尾的提问，完全不知道是什么问题，没法回答你，最好是贴出代码，贴出图片等大家才能帮忙分析
>
>
>
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/

13631283359

Re:Re: 【问题分析】Fink任务无限反压

In reply to this post by LakeShen

1.不知道这边有没有flink数据链路监控
2.flink反压可能有以下几种原因：
数据倾斜
TaskManager配置内存太小，导致full gc
checkpoint太慢
状态太大

在 2021-06-08 10:36:49，"LakeShen" <[hidden email]> 写道：

>你可以先结合你的任务逻辑，以及 Flink Web UI 反压监控，看看到底是什么地方引起反压。
>一般 source 反压，是下游的算子一直反压到 source。可以看看那个算子引起
>
>Best,
>LakeShen
>
>
>yidan zhao <[hidden email]> 于2021年6月8日周二上午10:28写道：
>
>> 该任务有时候正常，偶尔反压。
>> 最近观察发现，反压时，kafkaSouce节点100%反压到停滞，后续算子什么也收不到，任务整体停滞。
>>
>> 这类错误遇到过很多次了，目前我生产中flink有个很大问题就是这些稳定性，压力大不是需要时间去追赶，而是压力一大就整体处于停滞状态。
>>

nobleyd

Re: Re: 【问题分析】Fink任务无限反压

目前遇到个报错，这个有人看得懂不。
org.apache.flink.runtime.io.network.netty.exception.LocalTransportException:
readAddress(..) failed: Connection timed out (connection to
'10.35.213.143/10.35.213.143:2008')
at org.apache.flink.runtime.io.network.netty.CreditBasedPartitionRequestClientHandler.exceptionCaught(CreditBasedPartitionRequestClientHandler.java:173)
at org.apache.flink.shaded.netty4.io.netty.channel.AbstractChannelHandlerContext.invokeExceptionCaught(AbstractChannelHandlerContext.java:302)
at org.apache.flink.shaded.netty4.io.netty.channel.AbstractChannelHandlerContext.invokeExceptionCaught(AbstractChannelHandlerContext.java:281)
at org.apache.flink.shaded.netty4.io.netty.channel.AbstractChannelHandlerContext.fireExceptionCaught(AbstractChannelHandlerContext.java:273)
at org.apache.flink.shaded.netty4.io.netty.channel.DefaultChannelPipeline$HeadContext.exceptionCaught(DefaultChannelPipeline.java:1377)
at org.apache.flink.shaded.netty4.io.netty.channel.AbstractChannelHandlerContext.invokeExceptionCaught(AbstractChannelHandlerContext.java:302)
at org.apache.flink.shaded.netty4.io.netty.channel.AbstractChannelHandlerContext.invokeExceptionCaught(AbstractChannelHandlerContext.java:281)
at org.apache.flink.shaded.netty4.io.netty.channel.DefaultChannelPipeline.fireExceptionCaught(DefaultChannelPipeline.java:907)
at org.apache.flink.shaded.netty4.io.netty.channel.epoll.AbstractEpollStreamChannel$EpollStreamUnsafe.handleReadException(AbstractEpollStreamChannel.java:728)
at org.apache.flink.shaded.netty4.io.netty.channel.epoll.AbstractEpollStreamChannel$EpollStreamUnsafe.epollInReady(AbstractEpollStreamChannel.java:818)
at org.apache.flink.shaded.netty4.io.netty.channel.epoll.EpollEventLoop.processReady(EpollEventLoop.java:475)
at org.apache.flink.shaded.netty4.io.netty.channel.epoll.EpollEventLoop.run(EpollEventLoop.java:378)
at org.apache.flink.shaded.netty4.io.netty.util.concurrent.SingleThreadEventExecutor$4.run(SingleThreadEventExecutor.java:989)
at org.apache.flink.shaded.netty4.io.netty.util.internal.ThreadExecutorMap$2.run(ThreadExecutorMap.java:74)
at java.lang.Thread.run(Thread.java:748)
Caused by: org.apache.flink.shaded.netty4.io.netty.channel.unix.Errors$NativeIoException:
readAddress(..) failed: Connection timed out

13631283359 <[hidden email]> 于2021年6月8日周二下午3:41写道：

>
>
>
>
>
>
>
>
>
>
> 1.不知道这边有没有flink数据链路监控
> 2.flink反压可能有以下几种原因：
> 数据倾斜
> TaskManager配置内存太小，导致full gc
> checkpoint太慢
> 状态太大
>
>
>
>
>
>
>
>
> 在 2021-06-08 10:36:49，"LakeShen" <[hidden email]> 写道：
> >你可以先结合你的任务逻辑，以及 Flink Web UI 反压监控，看看到底是什么地方引起反压。
> >一般 source 反压，是下游的算子一直反压到 source。可以看看那个算子引起
> >
> >Best,
> >LakeShen
> >
> >
> >yidan zhao <[hidden email]> 于2021年6月8日周二上午10:28写道：
> >
> >> 该任务有时候正常，偶尔反压。
> >> 最近观察发现，反压时，kafkaSouce节点100%反压到停滞，后续算子什么也收不到，任务整体停滞。
> >>
> >> 这类错误遇到过很多次了，目前我生产中flink有个很大问题就是这些稳定性，压力大不是需要时间去追赶，而是压力一大就整体处于停滞状态。
> >>