重复声明watermark的问题

classic Classic list List threaded Threaded
3 messages Options
Reply | Threaded
Open this post in threaded view
|

重复声明watermark的问题

lec ssmi
大家好:
  请问,对一个DataStream重复声明watermark,前面的watermark会被覆盖掉吗?
  比如我再source端声明了watermark,进行了一系列操作后,我觉得watermark的延迟不满足需求,就再次声明一次。
  另外,稍微咨询下另外一个问题,两个流join之后,watermark会消失吗?看书上说的是,以两个流最小的watermark(全局最小)为准。
  主要是在阿里云Blink上,使用sql进行join后,说的是时间属性字段会消失。有点不明白。
Reply | Threaded
Open this post in threaded view
|

Re: 重复声明watermark的问题

jun su
hi,
1. 以我的理解, 再次下发watermark会覆盖之前的, 所以在经过n个operator后,可以用再次声明watermark的方式来调整.
2. 如果是DataStream模式下, 两个流join后, 下游收到的watermark是较小的流的watermark,
如果是stream模式下的sql window join, 那么下游收到的
    watermark是较小一侧表的watermark - sql设定的时间窗口.

lec ssmi <[hidden email]> 于2020年4月8日周三 下午2:05写道:

> 大家好:
>   请问,对一个DataStream重复声明watermark,前面的watermark会被覆盖掉吗?
>   比如我再source端声明了watermark,进行了一系列操作后,我觉得watermark的延迟不满足需求,就再次声明一次。
>   另外,稍微咨询下另外一个问题,两个流join之后,watermark会消失吗?看书上说的是,以两个流最小的watermark(全局最小)为准。
>   主要是在阿里云Blink上,使用sql进行join后,说的是时间属性字段会消失。有点不明白。
>


--
Best,
Jun Su
Reply | Threaded
Open this post in threaded view
|

Re: 重复声明watermark的问题

lec ssmi
谢谢,主要是我再次声明watermark后,再转成table,然后再window操作,就一直报错,现在能确定是时间属性字段的问题。我用的阿里云的blink,他们开发人员说好像不能这么操作。

jun su <[hidden email]> 于 2020年4月10日周五 23:36写道:

> hi,
> 1. 以我的理解, 再次下发watermark会覆盖之前的, 所以在经过n个operator后,可以用再次声明watermark的方式来调整.
> 2. 如果是DataStream模式下, 两个流join后, 下游收到的watermark是较小的流的watermark,
> 如果是stream模式下的sql window join, 那么下游收到的
>     watermark是较小一侧表的watermark - sql设定的时间窗口.
>
> lec ssmi <[hidden email]> 于2020年4月8日周三 下午2:05写道:
>
> > 大家好:
> >   请问,对一个DataStream重复声明watermark,前面的watermark会被覆盖掉吗?
> >   比如我再source端声明了watermark,进行了一系列操作后,我觉得watermark的延迟不满足需求,就再次声明一次。
> >   另外,稍微咨询下另外一个问题,两个流join之后,watermark会消失吗?看书上说的是,以两个流最小的watermark(全局最小)为准。
> >   主要是在阿里云Blink上,使用sql进行join后,说的是时间属性字段会消失。有点不明白。
> >
>
>
> --
> Best,
> Jun Su
>