|
dear all:
我有一个flink流式任务,checkpoint周期5分钟,超时时间3分钟。
此任务中调用了第三方接口,正常情况下没问题,正常的checkpoint时长仅80ms。
但由于第三方接口发生了拥堵,有部分调用会超时(接口调用超时设置了5秒钟),
然后此算子的checkpoint就会超时,
checkpoint 3179 of job xxxxxxxx expired before completing
trying to recover from a global failure
exceeded checkpoint tolerable failure threshold
然后任务就发生重启,恢复到最后一个正常checkpoint点。
但到下一个checkpoint周期时,又超时,又发生重启,又恢复到那个正常checkpoint点。
就如此反复重启,恢复到那个正常checkpoint点,也导致流中的数据无法继续消费。
checkpoint超时为什么会导致任务重启,可以避免让他重启吗?
调用第三方接口超时的数据,我可以后面单独处理,但重启却导致了数据无法消费。
thanks
/nicygan
|