背压问题排查疑问求解

classic Classic list List threaded Threaded
4 messages Options
Reply | Threaded
Open this post in threaded view
|

背压问题排查疑问求解

restart
flink项目的DAG如图:
<http://apache-flink.147419.n8.nabble.com/file/t1014/Dingtalk_20201111100815.jpg>
,job任务每晚高峰期就会出现背压问题,checkpoint超时。图中,a,b,c全部出现背压,d,e,f正常,根据 背压排查思路
<http://www.whitewood.me/2019/11/03/Flink-%E5%8F%8D%E5%8E%8B%E5%88%86%E6%9E%90%E5%8F%8A%E5%A4%84%E7%90%86/>
,应该c是根源,奇怪的是查看c的metrics(outPoolUsage、inPoolUsage
、floatingBuffersUsage、exclusiveBuffersUsage
),数据显示都是0,是不是可以理解c自身处理能力导致了背压了呢,至于gc这块,差不多跑一天左右,gc次数1400左右,还有逻辑场景里,基本是keyby->window->reduce这种,中间涉及到了Set集合存储用户id,Map存储耗时和次数(主要用来计算99line,95line,将耗时时间作为key,同时间的记录数做value,减少集合大小),还有数据倾斜这块,a的并行度给kafka的partation一致,而且a,b,c,d,e,f的subtasks基本均衡,整个运行期间也没出现异常信息,像这种现象,该如何定位到问题点呢



--
Sent from: http://apache-flink.147419.n8.nabble.com/
Reply | Threaded
Open this post in threaded view
|

Re: 背压问题排查疑问求解

nobleyd
按照你描述,出问题的是def中任意1个或多个。不会是c的问题哈。

restart <[hidden email]> 于2020年11月11日周三 下午12:26写道:

> flink项目的DAG如图:
> <
> http://apache-flink.147419.n8.nabble.com/file/t1014/Dingtalk_20201111100815.jpg
> >
> ,job任务每晚高峰期就会出现背压问题,checkpoint超时。图中,a,b,c全部出现背压,d,e,f正常,根据 背压排查思路
> <
> http://www.whitewood.me/2019/11/03/Flink-%E5%8F%8D%E5%8E%8B%E5%88%86%E6%9E%90%E5%8F%8A%E5%A4%84%E7%90%86/>
>
> ,应该c是根源,奇怪的是查看c的metrics(outPoolUsage、inPoolUsage
> 、floatingBuffersUsage、exclusiveBuffersUsage
>
> ),数据显示都是0,是不是可以理解c自身处理能力导致了背压了呢,至于gc这块,差不多跑一天左右,gc次数1400左右,还有逻辑场景里,基本是keyby->window->reduce这种,中间涉及到了Set集合存储用户id,Map存储耗时和次数(主要用来计算99line,95line,将耗时时间作为key,同时间的记录数做value,减少集合大小),还有数据倾斜这块,a的并行度给kafka的partation一致,而且a,b,c,d,e,f的subtasks基本均衡,整个运行期间也没出现异常信息,像这种现象,该如何定位到问题点呢
>
>
>
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/
Reply | Threaded
Open this post in threaded view
|

Re: 背压问题排查疑问求解

restart
这个我在d,e,f中都看过,背压正常,metrics(outPoolUsage、inPoolUsage、floatingBuffersUsage、exclusiveBuffersUsage)数据都是0,如果是你说的这种的话,c的outPoolUsage就应该是1,这样才能解释的通,但是现象是c的metrics正常,但是背压是存在的



--
Sent from: http://apache-flink.147419.n8.nabble.com/
Reply | Threaded
Open this post in threaded view
|

Re: 背压问题排查疑问求解

nobleyd
但是abc背压,def正常。说明性能压力在def呀。

restart <[hidden email]> 于2020年11月11日周三 下午2:09写道:

>
> 这个我在d,e,f中都看过,背压正常,metrics(outPoolUsage、inPoolUsage、floatingBuffersUsage、exclusiveBuffersUsage)数据都是0,如果是你说的这种的话,c的outPoolUsage就应该是1,这样才能解释的通,但是现象是c的metrics正常,但是背压是存在的
>
>
>
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/