hi all我这边有个去重作业,从savepoint启动后,发现作业运行结果和之前的结果不一致,作业采用的是event time,不知道还有什么因素会导致状态不一样,求大佬支招
|
Hi
1 怎么对比得到“结果不一致”这个结论的呢? 2 是否有 window 算子呢,现在 checkpoint/savepoint 没有 记录 watermark 的。 3 你的 eventtime 是直接从 record 取的,还是计算出来的呢,如果是计算出来的话,重启是否影响计算逻辑得到的 eventtime 和 watermark 呢 Best, Congxian claylin <[hidden email]> 于2020年6月22日周一 下午10:49写道: > hi all我这边有个去重作业,从savepoint启动后,发现作业运行结果和之前的结果不一致,作业采用的是event > time,不知道还有什么因素会导致状态不一样,求大佬支招 |
1. 生成savepoint的作业还在正常运行,我是从savepoint又重新起了一个任务,然后对他们的输出做了对比,发现输出结果不一致
2. 是的,我这边有window窗口,使用的是tumble event time window 3. eventtime是从record计算出来的,计算的结果是幂等的,应该不会影响 ------------------ 原始邮件 ------------------ 发件人: "Congxian Qiu"<[hidden email]>; 发送时间: 2020年6月22日(星期一) 晚上11:27 收件人: "user-zh"<[hidden email]>; 主题: Re: 作业从savepoint启动,状态不一致问题 Hi 1 怎么对比得到“结果不一致”这个结论的呢? 2 是否有 window 算子呢,现在 checkpoint/savepoint 没有 记录 watermark 的。 3 你的 eventtime 是直接从 record 取的,还是计算出来的呢,如果是计算出来的话,重启是否影响计算逻辑得到的 eventtime 和 watermark 呢 Best, Congxian claylin <[hidden email]> 于2020年6月22日周一 下午10:49写道: > hi all我这边有个去重作业,从savepoint启动后,发现作业运行结果和之前的结果不一致,作业采用的是event > time,不知道还有什么因素会导致状态不一样,求大佬支招 |
现在 watermark 没有被记录在 checkpoint/savepoint 中,因此结果可能会不一致,这需要看下 从 savepoint
恢复之后 watermark 的生成和之前是否完全一致。 Best, Congxian claylin <[hidden email]> 于2020年6月23日周二 上午9:35写道: > 1. 生成savepoint的作业还在正常运行,我是从savepoint又重新起了一个任务,然后对他们的输出做了对比,发现输出结果不一致 > 2. 是的,我这边有window窗口,使用的是tumble event time window > 3. eventtime是从record计算出来的,计算的结果是幂等的,应该不会影响 > > > > > ------------------ 原始邮件 ------------------ > 发件人: "Congxian Qiu"<[hidden email]>; > 发送时间: 2020年6月22日(星期一) 晚上11:27 > 收件人: "user-zh"<[hidden email]>; > > 主题: Re: 作业从savepoint启动,状态不一致问题 > > > > Hi > 1 怎么对比得到“结果不一致”这个结论的呢? > 2 是否有 window 算子呢,现在 checkpoint/savepoint 没有 记录 watermark 的。 > 3 你的 eventtime 是直接从 record 取的,还是计算出来的呢,如果是计算出来的话,重启是否影响计算逻辑得到的 eventtime 和 > watermark 呢 > > Best, > Congxian > > > claylin <[hidden email]> 于2020年6月22日周一 下午10:49写道: > > > hi all我这边有个去重作业,从savepoint启动后,发现作业运行结果和之前的结果不一致,作业采用的是event > > time,不知道还有什么因素会导致状态不一样,求大佬支招 |
有什么办法可以确保watermark生成一直吗。。。如果没有的话是不是在生产上不能用时间窗口了
------------------ 原始邮件 ------------------ 发件人: "Congxian Qiu"<[hidden email]>; 发送时间: 2020年6月23日(星期二) 下午2:09 收件人: "user-zh"<[hidden email]>; 主题: Re: 作业从savepoint启动,状态不一致问题 现在 watermark 没有被记录在 checkpoint/savepoint 中,因此结果可能会不一致,这需要看下 从 savepoint 恢复之后 watermark 的生成和之前是否完全一致。 Best, Congxian claylin <[hidden email]> 于2020年6月23日周二 上午9:35写道: > 1. 生成savepoint的作业还在正常运行,我是从savepoint又重新起了一个任务,然后对他们的输出做了对比,发现输出结果不一致 > 2. 是的,我这边有window窗口,使用的是tumble event time window > 3. eventtime是从record计算出来的,计算的结果是幂等的,应该不会影响 > > > > > ------------------&nbsp;原始邮件&nbsp;------------------ > 发件人:&nbsp;"Congxian Qiu"<[hidden email]&gt;; > 发送时间:&nbsp;2020年6月22日(星期一) 晚上11:27 > 收件人:&nbsp;"user-zh"<[hidden email]&gt;; > > 主题:&nbsp;Re: 作业从savepoint启动,状态不一致问题 > > > > Hi > 1 怎么对比得到“结果不一致”这个结论的呢? > 2 是否有 window 算子呢,现在 checkpoint/savepoint 没有 记录 watermark 的。 > 3 你的 eventtime 是直接从 record 取的,还是计算出来的呢,如果是计算出来的话,重启是否影响计算逻辑得到的 eventtime 和 > watermark 呢 > > Best, > Congxian > > > claylin <[hidden email]&gt; 于2020年6月22日周一 下午10:49写道: > > &gt; hi all我这边有个去重作业,从savepoint启动后,发现作业运行结果和之前的结果不一致,作业采用的是event > &gt; time,不知道还有什么因素会导致状态不一样,求大佬支招 |
具体的依赖你生成 watermark 的逻辑,换句话说,如果你的作业不 failvover 的话,watermark 应该是怎么样的,然后
failover 之后,你的 watermark 应该是怎么样的。你需要能够保证这两个是一致的。 checkpoint 包含 watermark 之前有个 issue[1] 如果你需要这个功能的话,可以在 issue 那边进行评论 [1] https://issues.apache.org/jira/browse/FLINK-5601 <https://issues.apache.org/jira/browse/FLINK-5601?> Best, Congxian claylin <[hidden email]> 于2020年6月23日周二 下午2:44写道: > 有什么办法可以确保watermark生成一直吗。。。如果没有的话是不是在生产上不能用时间窗口了 > > > > > ------------------ 原始邮件 ------------------ > 发件人: "Congxian Qiu"<[hidden email]>; > 发送时间: 2020年6月23日(星期二) 下午2:09 > 收件人: "user-zh"<[hidden email]>; > > 主题: Re: 作业从savepoint启动,状态不一致问题 > > > > 现在 watermark 没有被记录在 checkpoint/savepoint 中,因此结果可能会不一致,这需要看下 从 savepoint > 恢复之后 watermark 的生成和之前是否完全一致。 > > Best, > Congxian > > > claylin <[hidden email]> 于2020年6月23日周二 上午9:35写道: > > > 1. 生成savepoint的作业还在正常运行,我是从savepoint又重新起了一个任务,然后对他们的输出做了对比,发现输出结果不一致 > > 2. 是的,我这边有window窗口,使用的是tumble event time window > > 3. eventtime是从record计算出来的,计算的结果是幂等的,应该不会影响 > > > > > > > > > > ------------------&nbsp;原始邮件&nbsp;------------------ > > 发件人:&nbsp;"Congxian Qiu"<[hidden email]&gt;; > > 发送时间:&nbsp;2020年6月22日(星期一) 晚上11:27 > > 收件人:&nbsp;"user-zh"<[hidden email]&gt;; > > > > 主题:&nbsp;Re: 作业从savepoint启动,状态不一致问题 > > > > > > > > Hi > > 1 怎么对比得到“结果不一致”这个结论的呢? > > 2 是否有 window 算子呢,现在 checkpoint/savepoint 没有 记录 watermark 的。 > > 3 你的 eventtime 是直接从 record 取的,还是计算出来的呢,如果是计算出来的话,重启是否影响计算逻辑得到的 > eventtime 和 > > watermark 呢 > > > > Best, > > Congxian > > > > > > claylin <[hidden email]&gt; 于2020年6月22日周一 下午10:49写道: > > > > &gt; hi all我这边有个去重作业,从savepoint启动后,发现作业运行结果和之前的结果不一致,作业采用的是event > > &gt; time,不知道还有什么因素会导致状态不一样,求大佬支招 |
刚才那个问题是我改变了现有的算子逻辑导致计算结果的不一致,我在没改变现有算子的逻辑下多次从savepoint重启,发现计算结果都一样,
后面我新增了一个算子,这个算子是一个flatmap操作,没状态,但是我发现这个时候计算结果不一样了,是不是只要作业的jobgraph变了,不管是新增、减少还是改变现有算子的逻辑都会导致 计算结果的不一致,但是我这个新增的flatmap算子不应该会响应计算结果,是不是新增算子,Rebalance后会导致这个算子后面的其他先存的算子的状态恢复不了 ------------------ 原始邮件 ------------------ 发件人: "Congxian Qiu"<[hidden email]>; 发送时间: 2020年6月23日(星期二) 下午3:14 收件人: "user-zh"<[hidden email]>; 主题: Re: 作业从savepoint启动,状态不一致问题 具体的依赖你生成 watermark 的逻辑,换句话说,如果你的作业不 failvover 的话,watermark 应该是怎么样的,然后 failover 之后,你的 watermark 应该是怎么样的。你需要能够保证这两个是一致的。 checkpoint 包含 watermark 之前有个 issue[1] 如果你需要这个功能的话,可以在 issue 那边进行评论 [1] https://issues.apache.org/jira/browse/FLINK-5601 <https://issues.apache.org/jira/browse/FLINK-5601?> Best, Congxian claylin <[hidden email]> 于2020年6月23日周二 下午2:44写道: > 有什么办法可以确保watermark生成一直吗。。。如果没有的话是不是在生产上不能用时间窗口了 > > > > > ------------------&nbsp;原始邮件&nbsp;------------------ > 发件人:&nbsp;"Congxian Qiu"<[hidden email]&gt;; > 发送时间:&nbsp;2020年6月23日(星期二) 下午2:09 > 收件人:&nbsp;"user-zh"<[hidden email]&gt;; > > 主题:&nbsp;Re: 作业从savepoint启动,状态不一致问题 > > > > 现在 watermark 没有被记录在 checkpoint/savepoint 中,因此结果可能会不一致,这需要看下 从 savepoint > 恢复之后 watermark 的生成和之前是否完全一致。 > > Best, > Congxian > > > claylin <[hidden email]&gt; 于2020年6月23日周二 上午9:35写道: > > &gt; 1. 生成savepoint的作业还在正常运行,我是从savepoint又重新起了一个任务,然后对他们的输出做了对比,发现输出结果不一致 > &gt; 2. 是的,我这边有window窗口,使用的是tumble event time window > &gt; 3. eventtime是从record计算出来的,计算的结果是幂等的,应该不会影响 > &gt; > &gt; > &gt; > &gt; > &gt; ------------------&amp;nbsp;原始邮件&amp;nbsp;------------------ > &gt; 发件人:&amp;nbsp;"Congxian Qiu"<[hidden email]&amp;gt;; > &gt; 发送时间:&amp;nbsp;2020年6月22日(星期一) 晚上11:27 > &gt; 收件人:&amp;nbsp;"user-zh"<[hidden email]&amp;gt;; > &gt; > &gt; 主题:&amp;nbsp;Re: 作业从savepoint启动,状态不一致问题 > &gt; > &gt; > &gt; > &gt; Hi > &gt; 1 怎么对比得到“结果不一致”这个结论的呢? > &gt; 2 是否有 window 算子呢,现在 checkpoint/savepoint 没有 记录 watermark 的。 > &gt; 3 你的 eventtime 是直接从 record 取的,还是计算出来的呢,如果是计算出来的话,重启是否影响计算逻辑得到的 > eventtime 和 > &gt; watermark 呢 > &gt; > &gt; Best, > &gt; Congxian > &gt; > &gt; > &gt; claylin <[hidden email]&amp;gt; 于2020年6月22日周一 下午10:49写道: > &gt; > &gt; &amp;gt; hi all我这边有个去重作业,从savepoint启动后,发现作业运行结果和之前的结果不一致,作业采用的是event > &gt; &amp;gt; time,不知道还有什么因素会导致状态不一样,求大佬支招 |
hi,claylin
最好给每个算子指定uid,这样在DAG有变动时时便于状态恢复 | | Sun.Zhu | | [hidden email] | 签名由网易邮箱大师定制 在2020年06月23日 16:29,claylin<[hidden email]> 写道: 刚才那个问题是我改变了现有的算子逻辑导致计算结果的不一致,我在没改变现有算子的逻辑下多次从savepoint重启,发现计算结果都一样, 后面我新增了一个算子,这个算子是一个flatmap操作,没状态,但是我发现这个时候计算结果不一样了,是不是只要作业的jobgraph变了,不管是新增、减少还是改变现有算子的逻辑都会导致 计算结果的不一致,但是我这个新增的flatmap算子不应该会响应计算结果,是不是新增算子,Rebalance后会导致这个算子后面的其他先存的算子的状态恢复不了 ------------------ 原始邮件 ------------------ 发件人: "Congxian Qiu"<[hidden email]>; 发送时间: 2020年6月23日(星期二) 下午3:14 收件人: "user-zh"<[hidden email]>; 主题: Re: 作业从savepoint启动,状态不一致问题 具体的依赖你生成 watermark 的逻辑,换句话说,如果你的作业不 failvover 的话,watermark 应该是怎么样的,然后 failover 之后,你的 watermark 应该是怎么样的。你需要能够保证这两个是一致的。 checkpoint 包含 watermark 之前有个 issue[1] 如果你需要这个功能的话,可以在 issue 那边进行评论 [1] https://issues.apache.org/jira/browse/FLINK-5601 <https://issues.apache.org/jira/browse/FLINK-5601?> Best, Congxian claylin <[hidden email]> 于2020年6月23日周二 下午2:44写道: > 有什么办法可以确保watermark生成一直吗。。。如果没有的话是不是在生产上不能用时间窗口了 > > > > > ------------------&nbsp;原始邮件&nbsp;------------------ > 发件人:&nbsp;"Congxian Qiu"<[hidden email]&gt;; > 发送时间:&nbsp;2020年6月23日(星期二) 下午2:09 > 收件人:&nbsp;"user-zh"<[hidden email]&gt;; > > 主题:&nbsp;Re: 作业从savepoint启动,状态不一致问题 > > > > 现在 watermark 没有被记录在 checkpoint/savepoint 中,因此结果可能会不一致,这需要看下 从 savepoint > 恢复之后 watermark 的生成和之前是否完全一致。 > > Best, > Congxian > > > claylin <[hidden email]&gt; 于2020年6月23日周二 上午9:35写道: > > &gt; 1. 生成savepoint的作业还在正常运行,我是从savepoint又重新起了一个任务,然后对他们的输出做了对比,发现输出结果不一致 > &gt; 2. 是的,我这边有window窗口,使用的是tumble event time window > &gt; 3. eventtime是从record计算出来的,计算的结果是幂等的,应该不会影响 > &gt; > &gt; > &gt; > &gt; > &gt; ------------------&amp;nbsp;原始邮件&amp;nbsp;------------------ > &gt; 发件人:&amp;nbsp;"Congxian Qiu"<[hidden email]&amp;gt;; > &gt; 发送时间:&amp;nbsp;2020年6月22日(星期一) 晚上11:27 > &gt; 收件人:&amp;nbsp;"user-zh"<[hidden email]&amp;gt;; > &gt; > &gt; 主题:&amp;nbsp;Re: 作业从savepoint启动,状态不一致问题 > &gt; > &gt; > &gt; > &gt; Hi > &gt; 1 怎么对比得到“结果不一致”这个结论的呢? > &gt; 2 是否有 window 算子呢,现在 checkpoint/savepoint 没有 记录 watermark 的。 > &gt; 3 你的 eventtime 是直接从 record 取的,还是计算出来的呢,如果是计算出来的话,重启是否影响计算逻辑得到的 > eventtime 和 > &gt; watermark 呢 > &gt; > &gt; Best, > &gt; Congxian > &gt; > &gt; > &gt; claylin <[hidden email]&amp;gt; 于2020年6月22日周一 下午10:49写道: > &gt; > &gt; &amp;gt; hi all我这边有个去重作业,从savepoint启动后,发现作业运行结果和之前的结果不一致,作业采用的是event > &gt; &amp;gt; time,不知道还有什么因素会导致状态不一样,求大佬支招 |
我这边每个算子都加了唯一UID和name
------------------ 原始邮件 ------------------ 发件人: "Sun.Zhu"<[hidden email]>; 发送时间: 2020年6月23日(星期二) 下午5:18 收件人: "[hidden email]"<[hidden email]>; 抄送: "user-zh"<[hidden email]>; 主题: 回复: 作业从savepoint启动,状态不一致问题 hi,claylin 最好给每个算子指定uid,这样在DAG有变动时时便于状态恢复 | | Sun.Zhu | | [hidden email] | 签名由网易邮箱大师定制 在2020年06月23日 16:29,claylin<[hidden email]> 写道: 刚才那个问题是我改变了现有的算子逻辑导致计算结果的不一致,我在没改变现有算子的逻辑下多次从savepoint重启,发现计算结果都一样, 后面我新增了一个算子,这个算子是一个flatmap操作,没状态,但是我发现这个时候计算结果不一样了,是不是只要作业的jobgraph变了,不管是新增、减少还是改变现有算子的逻辑都会导致 计算结果的不一致,但是我这个新增的flatmap算子不应该会响应计算结果,是不是新增算子,Rebalance后会导致这个算子后面的其他先存的算子的状态恢复不了 ------------------&nbsp;原始邮件&nbsp;------------------ 发件人:&nbsp;"Congxian Qiu"<[hidden email]&gt;; 发送时间:&nbsp;2020年6月23日(星期二) 下午3:14 收件人:&nbsp;"user-zh"<[hidden email]&gt;; 主题:&nbsp;Re: 作业从savepoint启动,状态不一致问题 具体的依赖你生成 watermark 的逻辑,换句话说,如果你的作业不 failvover 的话,watermark 应该是怎么样的,然后 failover 之后,你的 watermark 应该是怎么样的。你需要能够保证这两个是一致的。 checkpoint 包含 watermark 之前有个 issue[1] 如果你需要这个功能的话,可以在 issue 那边进行评论 [1] https://issues.apache.org/jira/browse/FLINK-5601 <https://issues.apache.org/jira/browse/FLINK-5601?&gt; Best, Congxian claylin <[hidden email]&gt; 于2020年6月23日周二 下午2:44写道: &gt; 有什么办法可以确保watermark生成一直吗。。。如果没有的话是不是在生产上不能用时间窗口了 &gt; &gt; &gt; &gt; &gt; ------------------&amp;nbsp;原始邮件&amp;nbsp;------------------ &gt; 发件人:&amp;nbsp;"Congxian Qiu"<[hidden email]&amp;gt;; &gt; 发送时间:&amp;nbsp;2020年6月23日(星期二) 下午2:09 &gt; 收件人:&amp;nbsp;"user-zh"<[hidden email]&amp;gt;; &gt; &gt; 主题:&amp;nbsp;Re: 作业从savepoint启动,状态不一致问题 &gt; &gt; &gt; &gt; 现在 watermark 没有被记录在 checkpoint/savepoint 中,因此结果可能会不一致,这需要看下 从 savepoint &gt; 恢复之后 watermark 的生成和之前是否完全一致。 &gt; &gt; Best, &gt; Congxian &gt; &gt; &gt; claylin <[hidden email]&amp;gt; 于2020年6月23日周二 上午9:35写道: &gt; &gt; &amp;gt; 1. 生成savepoint的作业还在正常运行,我是从savepoint又重新起了一个任务,然后对他们的输出做了对比,发现输出结果不一致 &gt; &amp;gt; 2. 是的,我这边有window窗口,使用的是tumble event time window &gt; &amp;gt; 3. eventtime是从record计算出来的,计算的结果是幂等的,应该不会影响 &gt; &amp;gt; &gt; &amp;gt; &gt; &amp;gt; &gt; &amp;gt; &gt; &amp;gt; ------------------&amp;amp;nbsp;原始邮件&amp;amp;nbsp;------------------ &gt; &amp;gt; 发件人:&amp;amp;nbsp;"Congxian Qiu"<[hidden email]&amp;amp;gt;; &gt; &amp;gt; 发送时间:&amp;amp;nbsp;2020年6月22日(星期一) 晚上11:27 &gt; &amp;gt; 收件人:&amp;amp;nbsp;"user-zh"<[hidden email]&amp;amp;gt;; &gt; &amp;gt; &gt; &amp;gt; 主题:&amp;amp;nbsp;Re: 作业从savepoint启动,状态不一致问题 &gt; &amp;gt; &gt; &amp;gt; &gt; &amp;gt; &gt; &amp;gt; Hi &gt; &amp;gt; 1 怎么对比得到“结果不一致”这个结论的呢? &gt; &amp;gt; 2 是否有 window 算子呢,现在 checkpoint/savepoint 没有 记录 watermark 的。 &gt; &amp;gt; 3 你的 eventtime 是直接从 record 取的,还是计算出来的呢,如果是计算出来的话,重启是否影响计算逻辑得到的 &gt; eventtime 和 &gt; &amp;gt; watermark 呢 &gt; &amp;gt; &gt; &amp;gt; Best, &gt; &amp;gt; Congxian &gt; &amp;gt; &gt; &amp;gt; &gt; &amp;gt; claylin <[hidden email]&amp;amp;gt; 于2020年6月22日周一 下午10:49写道: &gt; &amp;gt; &gt; &amp;gt; &amp;amp;gt; hi all我这边有个去重作业,从savepoint启动后,发现作业运行结果和之前的结果不一致,作业采用的是event &gt; &amp;gt; &amp;amp;gt; time,不知道还有什么因素会导致状态不一样,求大佬支招 |
Free forum by Nabble | Edit this page |