flink预加载数据的方式

classic Classic list List threaded Threaded
2 messages Options
Reply | Threaded
Open this post in threaded view
|

flink预加载数据的方式

xuefli@outlook.com
环境背景:flink 1.10 standalone cluster


原因:因数据处理,需要动态的增加OutputTag做数据流的分流

即因业务原因,需要有些A数据先运行计算好后,才能被使用B、C、D类数据流结合处理后的结果后的结果流,才能使用A数据流。但A是变化的。

目的:除了Rich方式在open中能够预加载数据外(即先于数据流处理其他数据),是否还有其他方式

在flink的流式计算中没有什么比较好的办法,实施流之间的数据结果依赖。
我试过使用流式数据处理A;使用流式数据处理{B、C、D}在Function_XXX中使用A的结果流
但是Function_XXX中使用A的结果时,A的结果是空的。
尝试过A的数据处理改成DataSet方式batch处理后collection()得到List<YYY>后,在Function_XXX中使用List<YYY>,但List<YYYY>也是空集。

因基于双流join在具体的业务上时间跨度太大等原因不适合。

发送自 Windows 10 版邮件<https://go.microsoft.com/fwlink/?LinkId=550986>应用

Reply | Threaded
Open this post in threaded view
|

回复:flink预加载数据的方式

Yichao Yang
Hi


可以尝试broadcast。


Best,
Yichao Yang




------------------&nbsp;原始邮件&nbsp;------------------
发件人:&nbsp;"[hidden email]"<[hidden email]&gt;;
发送时间:&nbsp;2020年6月11日(星期四) 下午3:56
收件人:&nbsp;"user-zh"<[hidden email]&gt;;

主题:&nbsp;flink预加载数据的方式



环境背景:flink 1.10 standalone cluster


原因:因数据处理,需要动态的增加OutputTag做数据流的分流

即因业务原因,需要有些A数据先运行计算好后,才能被使用B、C、D类数据流结合处理后的结果后的结果流,才能使用A数据流。但A是变化的。

目的:除了Rich方式在open中能够预加载数据外(即先于数据流处理其他数据),是否还有其他方式

在flink的流式计算中没有什么比较好的办法,实施流之间的数据结果依赖。
我试过使用流式数据处理A;使用流式数据处理{B、C、D}在Function_XXX中使用A的结果流
但是Function_XXX中使用A的结果时,A的结果是空的。
尝试过A的数据处理改成DataSet方式batch处理后collection()得到List<YYY&gt;后,在Function_XXX中使用List<YYY&gt;,但List<YYYY&gt;也是空集。

因基于双流join在具体的业务上时间跨度太大等原因不适合。

发送自 Windows 10 版邮件<https://go.microsoft.com/fwlink/?LinkId=550986&gt;应用