关于DataStreamUtils.reinterpretasKeyedStream的使用

classic Classic list List threaded Threaded
4 messages Options
Reply | Threaded
Open this post in threaded view
|

关于DataStreamUtils.reinterpretasKeyedStream的使用

绘梦飘雪
hi
  我有这样一个场景,以多个相同的key.做keyby,
DataStream resStream =  demoStream.keyBy(groupKeys)
            .flatMap(new MyFlatmapFunction())
            .keyBy(groupKeys)
            .process(new MyProcessFunction())
            .keyBy(groupKeys)
            .timeWindow(Time.seconds(1))
            .aggregate(new MyAggFunction())
            .keyBy(groupKeys)
            .timeWindow(Time.seconds(1))
            .process(new MyKeyProcessFunction());

我想通过DataStreamUtils.reinterpretasKeyedStream来改写这个流程,我自己尝试这样写下,,
int[] groupKeys = new int[]{0,2,3};

DataStream proStream = DataStreamUtils.reinterpretAsKeyedStream(demoStream, new MyKeySelector2(groupKeys) )  //  MyKeySelector2 自己实现keySelector             .flatMap(new MyFlatmapFunction())
我这样写发现数据流经过flatmap后并不是返回一个keyedstream
,请问是哪里有问题吗?请问该如何使用DataStreamUtils.reinterpretasKeyedStream
Reply | Threaded
Open this post in threaded view
|

回复:关于DataStreamUtils.reinterpretasKeyedStream的使用

Yichao Yang
Hi


flatmap之后返回的本身就不是Keyedstream哈,keyby之后返回的才是keyedstream。


Best,
Yichao Yang




------------------ 原始邮件 ------------------
发件人:&nbsp;"绘梦飘雪"<[hidden email]&gt;;
发送时间:&nbsp;2020年6月10日(星期三) 晚上7:18
收件人:&nbsp;"user-zh"<[hidden email]&gt;;

主题:&nbsp;关于DataStreamUtils.reinterpretasKeyedStream的使用



hi
&amp;nbsp; 我有这样一个场景,以多个相同的key.做keyby,
DataStream resStream =&amp;nbsp; demoStream.keyBy(groupKeys)
&amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; .flatMap(new MyFlatmapFunction())
&amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; .keyBy(groupKeys)
&amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; .process(new MyProcessFunction())
&amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; .keyBy(groupKeys)
&amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; .timeWindow(Time.seconds(1))
&amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; .aggregate(new MyAggFunction())
&amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; .keyBy(groupKeys)
&amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; .timeWindow(Time.seconds(1))
&amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; .process(new MyKeyProcessFunction());

我想通过DataStreamUtils.reinterpretasKeyedStream来改写这个流程,我自己尝试这样写下,,
int[] groupKeys = new int[]{0,2,3};

DataStream proStream = DataStreamUtils.reinterpretAsKeyedStream(demoStream, new MyKeySelector2(groupKeys) )&nbsp; //&nbsp; MyKeySelector2 自己实现keySelector&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; .flatMap(new MyFlatmapFunction())
我这样写发现数据流经过flatmap后并不是返回一个keyedstream
,请问是哪里有问题吗?请问该如何使用DataStreamUtils.reinterpretasKeyedStream
Reply | Threaded
Open this post in threaded view
|

Re: 关于DataStreamUtils.reinterpretasKeyedStream的使用

Jark
Administrator
Hi,

你可以再用 DataStreamUtils.reinterpretAsKeyedStream(proStream, new
MyKeySelector2(groupKeys) ) 把它解释成 KeyedStream。
因为你的 flatmap 和 上游节点之间如果并发一样的话,运行时是会 chain 在一起的,所以key的分布没有变。

Best,
Jark

On Wed, 10 Jun 2020 at 21:15, Yichao Yang <[hidden email]> wrote:

> Hi
>
>
> flatmap之后返回的本身就不是Keyedstream哈,keyby之后返回的才是keyedstream。
>
>
> Best,
> Yichao Yang
>
>
>
>
> ------------------&nbsp;原始邮件&nbsp;------------------
> 发件人:&nbsp;"绘梦飘雪"<[hidden email]&gt;;
> 发送时间:&nbsp;2020年6月10日(星期三) 晚上7:18
> 收件人:&nbsp;"user-zh"<[hidden email]&gt;;
>
> 主题:&nbsp;关于DataStreamUtils.reinterpretasKeyedStream的使用
>
>
>
> hi
> &amp;nbsp; 我有这样一个场景,以多个相同的key.做keyby,
> DataStream resStream =&amp;nbsp; demoStream.keyBy(groupKeys)
> &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp;
> .flatMap(new MyFlatmapFunction())
> &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp;
> .keyBy(groupKeys)
> &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp;
> .process(new MyProcessFunction())
> &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp;
> .keyBy(groupKeys)
> &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp;
> .timeWindow(Time.seconds(1))
> &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp;
> .aggregate(new MyAggFunction())
> &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp;
> .keyBy(groupKeys)
> &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp;
> .timeWindow(Time.seconds(1))
> &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp;
> .process(new MyKeyProcessFunction());
>
> 我想通过DataStreamUtils.reinterpretasKeyedStream来改写这个流程,我自己尝试这样写下,,
> int[] groupKeys = new int[]{0,2,3};
>
> DataStream proStream =
> DataStreamUtils.reinterpretAsKeyedStream(demoStream, new
> MyKeySelector2(groupKeys) )&nbsp; //&nbsp; MyKeySelector2
> 自己实现keySelector&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
> .flatMap(new MyFlatmapFunction())
> 我这样写发现数据流经过flatmap后并不是返回一个keyedstream
> ,请问是哪里有问题吗?请问该如何使用DataStreamUtils.reinterpretasKeyedStream
Reply | Threaded
Open this post in threaded view
|

Re: 关于DataStreamUtils.reinterpretasKeyedStream的使用

Congxian Qiu
Hi

DataStreamUtils.reinterpretasKeyedStream 会返回一个 KeyedStream,但是在 KeyedStream
上再进行 flatmap 之后就变成 DataStream 了,可以按照 Jark 说的再次使用 reinterpretAsKeyedStream
得到 KeyedStream。
另外注意在 1.8 之前的版本中使用这个功能有可能会丢数据,具体可以参考这个 issue[1]

[1] https://issues.apache.org/jira/browse/FLINK-12296

Best,
Congxian


Jark Wu <[hidden email]> 于2020年6月10日周三 下午10:29写道:

> Hi,
>
> 你可以再用 DataStreamUtils.reinterpretAsKeyedStream(proStream, new
> MyKeySelector2(groupKeys) ) 把它解释成 KeyedStream。
> 因为你的 flatmap 和 上游节点之间如果并发一样的话,运行时是会 chain 在一起的,所以key的分布没有变。
>
> Best,
> Jark
>
> On Wed, 10 Jun 2020 at 21:15, Yichao Yang <[hidden email]> wrote:
>
> > Hi
> >
> >
> > flatmap之后返回的本身就不是Keyedstream哈,keyby之后返回的才是keyedstream。
> >
> >
> > Best,
> > Yichao Yang
> >
> >
> >
> >
> > ------------------&nbsp;原始邮件&nbsp;------------------
> > 发件人:&nbsp;"绘梦飘雪"<[hidden email]&gt;;
> > 发送时间:&nbsp;2020年6月10日(星期三) 晚上7:18
> > 收件人:&nbsp;"user-zh"<[hidden email]&gt;;
> >
> > 主题:&nbsp;关于DataStreamUtils.reinterpretasKeyedStream的使用
> >
> >
> >
> > hi
> > &amp;nbsp; 我有这样一个场景,以多个相同的key.做keyby,
> > DataStream resStream =&amp;nbsp; demoStream.keyBy(groupKeys)
> > &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp;
> > .flatMap(new MyFlatmapFunction())
> > &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp;
> > .keyBy(groupKeys)
> > &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp;
> > .process(new MyProcessFunction())
> > &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp;
> > .keyBy(groupKeys)
> > &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp;
> > .timeWindow(Time.seconds(1))
> > &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp;
> > .aggregate(new MyAggFunction())
> > &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp;
> > .keyBy(groupKeys)
> > &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp;
> > .timeWindow(Time.seconds(1))
> > &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp;
> > .process(new MyKeyProcessFunction());
> >
> > 我想通过DataStreamUtils.reinterpretasKeyedStream来改写这个流程,我自己尝试这样写下,,
> > int[] groupKeys = new int[]{0,2,3};
> >
> > DataStream proStream =
> > DataStreamUtils.reinterpretAsKeyedStream(demoStream, new
> > MyKeySelector2(groupKeys) )&nbsp; //&nbsp; MyKeySelector2
> >
> 自己实现keySelector&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
> > .flatMap(new MyFlatmapFunction())
> > 我这样写发现数据流经过flatmap后并不是返回一个keyedstream
> > ,请问是哪里有问题吗?请问该如何使用DataStreamUtils.reinterpretasKeyedStream
>