interval join 时checkpoint失败

classic Classic list List threaded Threaded
4 messages Options
Reply | Threaded
Open this post in threaded view
|

interval join 时checkpoint失败

wangsong2
各位好,
两个流进行interval join,时间窗口是 -23h,+1h,任务可以正常运行23小时左右,之后便报错checkpoint失败,jobmanager log中的报错信息为:

2020-12-10 10:46:51,813 INFO org.apache.flink.runtime.checkpoint.CheckpointCoordinator - Checkpoint 143 of job ee4114a1c5413bd02a68b1165090578e expired before completing.


无其他报错信息,最大checkpoint时间为10min;


flink版本:1.9.0

checkpooint配置信息为:

env.enableCheckpointing(600000);
env.getCheckpointConfig().setCheckpointingMode(CheckpointingMode.AT_LEAST_ONCE);
env.getCheckpointConfig().setMinPauseBetweenCheckpoints(1000);
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);


各位大佬能否给些排查建议呢?






Reply | Threaded
Open this post in threaded view
|

Re: interval join 时checkpoint失败

Benchao Li-2
你可以检查下在Checkpoint失败的时候是不是任务已经在反压了,
看起来是有可能因为反压导致的Checkpoint超时失败。

song wang <[hidden email]> 于2020年12月10日周四 上午10:59写道:

> 各位好,
> 两个流进行interval join,时间窗口是 -23h,+1h,任务可以正常运行23小时左右,之后便报错checkpoint失败,jobmanager
> log中的报错信息为:
>
> 2020-12-10 10:46:51,813 INFO org.apache.flink.runtime.checkpoint.
> CheckpointCoordinator - Checkpoint 143 of job
> ee4114a1c5413bd02a68b1165090578e expired before completing.
>
>
> 无其他报错信息,最大checkpoint时间为10min;
>
>
> flink版本:1.9.0
>
> checkpooint配置信息为:
>
> env.enableCheckpointing(600000);
>
> env.getCheckpointConfig().setCheckpointingMode(CheckpointingMode.AT_LEAST_ONCE);
> env.getCheckpointConfig().setMinPauseBetweenCheckpoints(1000);
> env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);
>
>
> 各位大佬能否给些排查建议呢?
>
>
>
>
>
>
>

--

Best,
Benchao Li
Reply | Threaded
Open this post in threaded view
|

Re: interval join 时checkpoint失败

wangsong2
hi,Benchao,
是的,任务失败时,右流出现了反压,已经连续两天出现这个问题了,我看下为啥会出现反压,感谢!

Benchao Li <[hidden email]> 于2020年12月10日周四 上午11:28写道:

> 你可以检查下在Checkpoint失败的时候是不是任务已经在反压了,
> 看起来是有可能因为反压导致的Checkpoint超时失败。
>
> song wang <[hidden email]> 于2020年12月10日周四 上午10:59写道:
>
> > 各位好,
> > 两个流进行interval join,时间窗口是
> -23h,+1h,任务可以正常运行23小时左右,之后便报错checkpoint失败,jobmanager
> > log中的报错信息为:
> >
> > 2020-12-10 10:46:51,813 INFO org.apache.flink.runtime.checkpoint.
> > CheckpointCoordinator - Checkpoint 143 of job
> > ee4114a1c5413bd02a68b1165090578e expired before completing.
> >
> >
> > 无其他报错信息,最大checkpoint时间为10min;
> >
> >
> > flink版本:1.9.0
> >
> > checkpooint配置信息为:
> >
> > env.enableCheckpointing(600000);
> >
> >
> env.getCheckpointConfig().setCheckpointingMode(CheckpointingMode.AT_LEAST_ONCE);
> > env.getCheckpointConfig().setMinPauseBetweenCheckpoints(1000);
> > env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);
> >
> >
> > 各位大佬能否给些排查建议呢?
> >
> >
> >
> >
> >
> >
> >
>
> --
>
> Best,
> Benchao Li
>
Reply | Threaded
Open this post in threaded view
|

Re: interval join 时checkpoint失败

Benchao Li-2
反压的话,你可以重点看下你使用的是什么state backend,
如果是filesystem,那状态就是放heap的,这种你需要重点看下gc相关的问题;
如果是rocksdb,这种状态是直接序列化到rocksdb中了,一般很少有内存问题,更多的是IO问题,或者CPU瓶颈。
你可以按照找个思路排查一下。

song wang <[hidden email]> 于2020年12月10日周四 上午11:38写道:

> hi,Benchao,
> 是的,任务失败时,右流出现了反压,已经连续两天出现这个问题了,我看下为啥会出现反压,感谢!
>
> Benchao Li <[hidden email]> 于2020年12月10日周四 上午11:28写道:
>
> > 你可以检查下在Checkpoint失败的时候是不是任务已经在反压了,
> > 看起来是有可能因为反压导致的Checkpoint超时失败。
> >
> > song wang <[hidden email]> 于2020年12月10日周四 上午10:59写道:
> >
> > > 各位好,
> > > 两个流进行interval join,时间窗口是
> > -23h,+1h,任务可以正常运行23小时左右,之后便报错checkpoint失败,jobmanager
> > > log中的报错信息为:
> > >
> > > 2020-12-10 10:46:51,813 INFO org.apache.flink.runtime.checkpoint.
> > > CheckpointCoordinator - Checkpoint 143 of job
> > > ee4114a1c5413bd02a68b1165090578e expired before completing.
> > >
> > >
> > > 无其他报错信息,最大checkpoint时间为10min;
> > >
> > >
> > > flink版本:1.9.0
> > >
> > > checkpooint配置信息为:
> > >
> > > env.enableCheckpointing(600000);
> > >
> > >
> >
> env.getCheckpointConfig().setCheckpointingMode(CheckpointingMode.AT_LEAST_ONCE);
> > > env.getCheckpointConfig().setMinPauseBetweenCheckpoints(1000);
> > > env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);
> > >
> > >
> > > 各位大佬能否给些排查建议呢?
> > >
> > >
> > >
> > >
> > >
> > >
> > >
> >
> > --
> >
> > Best,
> > Benchao Li
> >
>


--

Best,
Benchao Li