各位好,
两个流进行interval join,时间窗口是 -23h,+1h,任务可以正常运行23小时左右,之后便报错checkpoint失败,jobmanager log中的报错信息为: 2020-12-10 10:46:51,813 INFO org.apache.flink.runtime.checkpoint.CheckpointCoordinator - Checkpoint 143 of job ee4114a1c5413bd02a68b1165090578e expired before completing. 无其他报错信息,最大checkpoint时间为10min; flink版本:1.9.0 checkpooint配置信息为: env.enableCheckpointing(600000); 各位大佬能否给些排查建议呢? |
你可以检查下在Checkpoint失败的时候是不是任务已经在反压了,
看起来是有可能因为反压导致的Checkpoint超时失败。 song wang <[hidden email]> 于2020年12月10日周四 上午10:59写道: > 各位好, > 两个流进行interval join,时间窗口是 -23h,+1h,任务可以正常运行23小时左右,之后便报错checkpoint失败,jobmanager > log中的报错信息为: > > 2020-12-10 10:46:51,813 INFO org.apache.flink.runtime.checkpoint. > CheckpointCoordinator - Checkpoint 143 of job > ee4114a1c5413bd02a68b1165090578e expired before completing. > > > 无其他报错信息,最大checkpoint时间为10min; > > > flink版本:1.9.0 > > checkpooint配置信息为: > > env.enableCheckpointing(600000); > > env.getCheckpointConfig().setCheckpointingMode(CheckpointingMode.AT_LEAST_ONCE); > env.getCheckpointConfig().setMinPauseBetweenCheckpoints(1000); > env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime); > > > 各位大佬能否给些排查建议呢? > > > > > > > -- Best, Benchao Li |
hi,Benchao,
是的,任务失败时,右流出现了反压,已经连续两天出现这个问题了,我看下为啥会出现反压,感谢! Benchao Li <[hidden email]> 于2020年12月10日周四 上午11:28写道: > 你可以检查下在Checkpoint失败的时候是不是任务已经在反压了, > 看起来是有可能因为反压导致的Checkpoint超时失败。 > > song wang <[hidden email]> 于2020年12月10日周四 上午10:59写道: > > > 各位好, > > 两个流进行interval join,时间窗口是 > -23h,+1h,任务可以正常运行23小时左右,之后便报错checkpoint失败,jobmanager > > log中的报错信息为: > > > > 2020-12-10 10:46:51,813 INFO org.apache.flink.runtime.checkpoint. > > CheckpointCoordinator - Checkpoint 143 of job > > ee4114a1c5413bd02a68b1165090578e expired before completing. > > > > > > 无其他报错信息,最大checkpoint时间为10min; > > > > > > flink版本:1.9.0 > > > > checkpooint配置信息为: > > > > env.enableCheckpointing(600000); > > > > > env.getCheckpointConfig().setCheckpointingMode(CheckpointingMode.AT_LEAST_ONCE); > > env.getCheckpointConfig().setMinPauseBetweenCheckpoints(1000); > > env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime); > > > > > > 各位大佬能否给些排查建议呢? > > > > > > > > > > > > > > > > -- > > Best, > Benchao Li > |
反压的话,你可以重点看下你使用的是什么state backend,
如果是filesystem,那状态就是放heap的,这种你需要重点看下gc相关的问题; 如果是rocksdb,这种状态是直接序列化到rocksdb中了,一般很少有内存问题,更多的是IO问题,或者CPU瓶颈。 你可以按照找个思路排查一下。 song wang <[hidden email]> 于2020年12月10日周四 上午11:38写道: > hi,Benchao, > 是的,任务失败时,右流出现了反压,已经连续两天出现这个问题了,我看下为啥会出现反压,感谢! > > Benchao Li <[hidden email]> 于2020年12月10日周四 上午11:28写道: > > > 你可以检查下在Checkpoint失败的时候是不是任务已经在反压了, > > 看起来是有可能因为反压导致的Checkpoint超时失败。 > > > > song wang <[hidden email]> 于2020年12月10日周四 上午10:59写道: > > > > > 各位好, > > > 两个流进行interval join,时间窗口是 > > -23h,+1h,任务可以正常运行23小时左右,之后便报错checkpoint失败,jobmanager > > > log中的报错信息为: > > > > > > 2020-12-10 10:46:51,813 INFO org.apache.flink.runtime.checkpoint. > > > CheckpointCoordinator - Checkpoint 143 of job > > > ee4114a1c5413bd02a68b1165090578e expired before completing. > > > > > > > > > 无其他报错信息,最大checkpoint时间为10min; > > > > > > > > > flink版本:1.9.0 > > > > > > checkpooint配置信息为: > > > > > > env.enableCheckpointing(600000); > > > > > > > > > env.getCheckpointConfig().setCheckpointingMode(CheckpointingMode.AT_LEAST_ONCE); > > > env.getCheckpointConfig().setMinPauseBetweenCheckpoints(1000); > > > env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime); > > > > > > > > > 各位大佬能否给些排查建议呢? > > > > > > > > > > > > > > > > > > > > > > > > > -- > > > > Best, > > Benchao Li > > > -- Best, Benchao Li |
Free forum by Nabble | Edit this page |