你好。
我按着官方文档配置了flink的高可用(flink-conf.yaml)如下: high-availability:zookeeper high-availability.zookeeper.quorum:master:2181 ,slave1:2181,slave2:2181 high-availability.zookeeper.path.root:/flink high-availability.cluster-id:/cluster_one highavailability.storageDir:hdfs://master:9000/flink/ha 我的flink和zookeeper都是在K8s的容器中 job启动出现如下问题:麻烦帮忙看一下,谢谢。 2020-06-22 02:47:43,884 INFO org.apache.flink.runtime.checkpoint.CheckpointCoordinator - Checkpoint triggering task Source:Kafka-Consumer -> (Sink: Print to Std. Out, Filter ->Query Map -> Unwind -> Custom Map -> filter -> Data Transformation -> Filter) (1/1) of job 00000000000000000000000000000000 is not in state RUNNING but SCHEDULED instead. Aborting checkpoint. |
Hi
看日志应该只是INFO,而不是错误,你的job是做不了checkpoint吗? Best, Yichao Yang ------------------ 原始邮件 ------------------ 发件人: "Tony"<[hidden email]>; 发送时间: 2020年6月22日(星期一) 上午10:54 收件人: "user-zh"<[hidden email]>; 主题: flink 高可用问题 你好。 我按着官方文档配置了flink的高可用(flink-conf.yaml)如下: high-availability:zookeeper high-availability.zookeeper.quorum:master:2181 ,slave1:2181,slave2:2181 high-availability.zookeeper.path.root:/flink high-availability.cluster-id:/cluster_one highavailability.storageDir:hdfs://master:9000/flink/ha 我的flink和zookeeper都是在K8s的容器中 job启动出现如下问题:麻烦帮忙看一下,谢谢。 2020-06-22 02:47:43,884 INFO org.apache.flink.runtime.checkpoint.CheckpointCoordinator - Checkpoint triggering task Source:Kafka-Consumer -> (Sink: Print to Std. Out, Filter ->Query Map -> Unwind -> Custom Map -> filter -> Data Transformation -> Filter) (1/1) of job 00000000000000000000000000000000 is not in state RUNNING but SCHEDULED instead. Aborting checkpoint. |
你看一下你的 chk 间隔,看起来是作业还没调度起来就开始 chk 所以失败。可能原因资源不足,调度不起来或者调度得慢,你 chk 间隔又小,就这样了。
如果是一直 chk 以这个方式失败,应该看下调度的日志为啥迟迟调不起来 Best, tison. Yichao Yang <[hidden email]> 于2020年6月22日周一 上午10:57写道: > Hi > > > 看日志应该只是INFO,而不是错误,你的job是做不了checkpoint吗? > > > Best, > Yichao Yang > > > > > ------------------ 原始邮件 ------------------ > 发件人: "Tony"<[hidden email]>; > 发送时间: 2020年6月22日(星期一) 上午10:54 > 收件人: "user-zh"<[hidden email]>; > > 主题: flink 高可用问题 > > > > 你好。 > > > 我按着官方文档配置了flink的高可用(flink-conf.yaml)如下: > high-availability:zookeeper > high-availability.zookeeper.quorum:master:2181 ,slave1:2181,slave2:2181 > high-availability.zookeeper.path.root:/flink > high-availability.cluster-id:/cluster_one > highavailability.storageDir:hdfs://master:9000/flink/ha > > > 我的flink和zookeeper都是在K8s的容器中 > job启动出现如下问题:麻烦帮忙看一下,谢谢。 > 2020-06-22 02:47:43,884 INFO > org.apache.flink.runtime.checkpoint.CheckpointCoordinator > - Checkpoint triggering task Source:Kafka-Consumer -> (Sink: Print to > Std. Out, Filter ->Query Map -> Unwind -> Custom Map -> filter > -> Data Transformation -> Filter) (1/1) of job > 00000000000000000000000000000000 is not in state RUNNING but SCHEDULED > instead. Aborting checkpoint. |
你好,我的flink运行环境是在k8s中,我先是打开了checkpoint功能,那样是可以用的,task失败了数据还可以恢复,但job失败了就不行了,所以我又配置flink的高可用,在job的yaml文件里设置了动态属性("-Dhigh-availability=zookeeper"),这样job启动时就出现那种警告,功能也不好用了。但如果配置在flink-config文件里的话就可以,不知道为什么?而我就是想用那个动态属性的方式,谢谢大神指点。
-- 发自我的网易邮箱手机智能版 <br/><br/><br/> ----- Original Message ----- From: tison <[hidden email]> To: user-zh <[hidden email]> Sent: Mon, 22 Jun 2020 15:08:04 +0800 Subject: Re: flink 高可用问题 你看一下你的 chk 间隔,看起来是作业还没调度起来就开始 chk 所以失败。可能原因资源不足,调度不起来或者调度得慢,你 chk 间隔又小,就这样了。 如果是一直 chk 以这个方式失败,应该看下调度的日志为啥迟迟调不起来 Best, tison. Yichao Yang <[hidden email]> 于2020年6月22日周一 上午10:57写道: > Hi > > > 看日志应该只是INFO,而不是错误,你的job是做不了checkpoint吗? > > > Best, > Yichao Yang > > > > > ------------------ 原始邮件 ------------------ > 发件人: "Tony"<[hidden email]>; > 发送时间: 2020年6月22日(星期一) 上午10:54 > 收件人: "user-zh"<[hidden email]>; > > 主题: flink 高可用问题 > > > > 你好。 > > > 我按着官方文档配置了flink的高可用(flink-conf.yaml)如下: > high-availability:zookeeper > high-availability.zookeeper.quorum:master:2181 ,slave1:2181,slave2:2181 > high-availability.zookeeper.path.root:/flink > high-availability.cluster-id:/cluster_one > highavailability.storageDir:hdfs://master:9000/flink/ha > > > 我的flink和zookeeper都是在K8s的容器中 > job启动出现如下问题:麻烦帮忙看一下,谢谢。 > 2020-06-22 02:47:43,884 INFO > org.apache.flink.runtime.checkpoint.CheckpointCoordinator > - Checkpoint triggering task Source:Kafka-Consumer -> (Sink: Print to > Std. Out, Filter ->Query Map -> Unwind -> Custom Map -> filter > -> Data Transformation -> Filter) (1/1) of job > 00000000000000000000000000000000 is not in state RUNNING but SCHEDULED > instead. Aborting checkpoint. |
hi,Tony
你可以把 Checkpoint 间隔时间稍微设置大一些,看起来像是作业启动的时候 Task 还没 Running,就开始执行 Checkpoint 了,而 Checkpoint 是要求所有的 Task 是处于 Running 状态的,所以就会丢弃掉那次 Checkpoint,BT,就算有这个异常应该问题也不大,只要后面你的作业全启动成功了的话,则 Checkpoint 还是会成功的。 Best! zhisheng Tony <[hidden email]> 于2020年6月29日周一 下午8:16写道: > > 你好,我的flink运行环境是在k8s中,我先是打开了checkpoint功能,那样是可以用的,task失败了数据还可以恢复,但job失败了就不行了,所以我又配置flink的高可用,在job的yaml文件里设置了动态属性("-Dhigh-availability=zookeeper"),这样job启动时就出现那种警告,功能也不好用了。但如果配置在flink-config文件里的话就可以,不知道为什么?而我就是想用那个动态属性的方式,谢谢大神指点。 > > > > > > -- > 发自我的网易邮箱手机智能版 > <br/><br/><br/> > > > ----- Original Message ----- > From: tison <[hidden email]> > To: user-zh <[hidden email]> > Sent: Mon, 22 Jun 2020 15:08:04 +0800 > Subject: Re: flink 高可用问题 > > 你看一下你的 chk 间隔,看起来是作业还没调度起来就开始 chk 所以失败。可能原因资源不足,调度不起来或者调度得慢,你 chk > 间隔又小,就这样了。 > > 如果是一直 chk 以这个方式失败,应该看下调度的日志为啥迟迟调不起来 > > Best, > tison. > > > Yichao Yang <[hidden email]> 于2020年6月22日周一 上午10:57写道: > > > Hi > > > > > > 看日志应该只是INFO,而不是错误,你的job是做不了checkpoint吗? > > > > > > Best, > > Yichao Yang > > > > > > > > > > ------------------ 原始邮件 ------------------ > > 发件人: "Tony"<[hidden email]>; > > 发送时间: 2020年6月22日(星期一) 上午10:54 > > 收件人: "user-zh"<[hidden email]>; > > > > 主题: flink 高可用问题 > > > > > > > > 你好。 > > > > > > 我按着官方文档配置了flink的高可用(flink-conf.yaml)如下: > > high-availability:zookeeper > > high-availability.zookeeper.quorum:master:2181 ,slave1:2181,slave2:2181 > > high-availability.zookeeper.path.root:/flink > > high-availability.cluster-id:/cluster_one > > highavailability.storageDir:hdfs://master:9000/flink/ha > > > > > > 我的flink和zookeeper都是在K8s的容器中 > > job启动出现如下问题:麻烦帮忙看一下,谢谢。 > > 2020-06-22 02:47:43,884 INFO > > > org.apache.flink.runtime.checkpoint.CheckpointCoordinator > > - Checkpoint triggering task Source:Kafka-Consumer -> (Sink: Print to > > Std. Out, Filter ->Query Map -> Unwind -> Custom Map -> > filter > > -> Data Transformation -> Filter) (1/1) of job > > 00000000000000000000000000000000 is not in state RUNNING but SCHEDULED > > instead. Aborting checkpoint. > |
Hi, Tony,
看了一下,你运行在 k8s 上面的任务,job id 是00000000000000000000000000000000,那如果有多个任务,jobid 如果都是 00000000000000000000000000000000 的话,如果都是在相同的ZK根目录,不同 k8s 任务 在 zk 上面的信息可能会有影响。目前我们这边是每个k8s 任务,在不同的 zk 路径下面。 第二点的话,你的任务是否能够正常运行起来?还是说任务正常运行起来,只是 checkpoint 有问题。 目前 k8s 上,JobManager 的高可用我们也借助 ZK,由于 JobManager 是一个 K8s Job,所以配置 K8s Job 的 restartPolicy 为 OnFailure。 这只是我的一些经验,仅供参考。 Best, LakeShen zhisheng <[hidden email]> 于2020年6月30日周二 上午8:51写道: > hi,Tony > > 你可以把 Checkpoint 间隔时间稍微设置大一些,看起来像是作业启动的时候 Task 还没 Running,就开始执行 Checkpoint > 了,而 Checkpoint 是要求所有的 Task 是处于 Running 状态的,所以就会丢弃掉那次 > Checkpoint,BT,就算有这个异常应该问题也不大,只要后面你的作业全启动成功了的话,则 Checkpoint 还是会成功的。 > > Best! > > zhisheng > > Tony <[hidden email]> 于2020年6月29日周一 下午8:16写道: > > > > > > 你好,我的flink运行环境是在k8s中,我先是打开了checkpoint功能,那样是可以用的,task失败了数据还可以恢复,但job失败了就不行了,所以我又配置flink的高可用,在job的yaml文件里设置了动态属性("-Dhigh-availability=zookeeper"),这样job启动时就出现那种警告,功能也不好用了。但如果配置在flink-config文件里的话就可以,不知道为什么?而我就是想用那个动态属性的方式,谢谢大神指点。 > > > > > > > > > > > > -- > > 发自我的网易邮箱手机智能版 > > <br/><br/><br/> > > > > > > ----- Original Message ----- > > From: tison <[hidden email]> > > To: user-zh <[hidden email]> > > Sent: Mon, 22 Jun 2020 15:08:04 +0800 > > Subject: Re: flink 高可用问题 > > > > 你看一下你的 chk 间隔,看起来是作业还没调度起来就开始 chk 所以失败。可能原因资源不足,调度不起来或者调度得慢,你 chk > > 间隔又小,就这样了。 > > > > 如果是一直 chk 以这个方式失败,应该看下调度的日志为啥迟迟调不起来 > > > > Best, > > tison. > > > > > > Yichao Yang <[hidden email]> 于2020年6月22日周一 上午10:57写道: > > > > > Hi > > > > > > > > > 看日志应该只是INFO,而不是错误,你的job是做不了checkpoint吗? > > > > > > > > > Best, > > > Yichao Yang > > > > > > > > > > > > > > > ------------------ 原始邮件 ------------------ > > > 发件人: "Tony"<[hidden email]>; > > > 发送时间: 2020年6月22日(星期一) 上午10:54 > > > 收件人: "user-zh"<[hidden email]>; > > > > > > 主题: flink 高可用问题 > > > > > > > > > > > > 你好。 > > > > > > > > > 我按着官方文档配置了flink的高可用(flink-conf.yaml)如下: > > > high-availability:zookeeper > > > high-availability.zookeeper.quorum:master:2181 ,slave1:2181,slave2:2181 > > > high-availability.zookeeper.path.root:/flink > > > high-availability.cluster-id:/cluster_one > > > highavailability.storageDir:hdfs://master:9000/flink/ha > > > > > > > > > 我的flink和zookeeper都是在K8s的容器中 > > > job启动出现如下问题:麻烦帮忙看一下,谢谢。 > > > 2020-06-22 02:47:43,884 INFO > > > > > > org.apache.flink.runtime.checkpoint.CheckpointCoordinator > > > - Checkpoint triggering task Source:Kafka-Consumer -> (Sink: Print > to > > > Std. Out, Filter ->Query Map -> Unwind -> Custom Map -> > > filter > > > -> Data Transformation -> Filter) (1/1) of job > > > 00000000000000000000000000000000 is not in state RUNNING but SCHEDULED > > > instead. Aborting checkpoint. > > > |
Free forum by Nabble | Edit this page |