flink双流join如何确保数据不丢失

classic Classic list List threaded Threaded
3 messages Options
Reply | Threaded
Open this post in threaded view
|

flink双流join如何确保数据不丢失

lxk7491@163.com

目前在使用flink进行双流join,多是使用interval join,根据经验值给定时间间隔,那么该如何保证数据不丢失呢?
如果数据晚于这个时间间隔,那么数据就被丢弃了,而我做的是关于订单的数据,这是不被允许的。


[hidden email]
Reply | Threaded
Open this post in threaded view
|

回复:flink双流join如何确保数据不丢失

Mailbox service
可以注册一个定时器,关联不上的测输出再去查------------------ 原始邮件 ------------------
发件人:&nbsp;&quot;[hidden email]&quot;<[hidden email]&gt;
发送时间:&nbsp;2021年2月8日(星期一) 晚上7:05
收件人:&nbsp;&quot;user-zh&quot;<[hidden email]&gt;;
主题:&nbsp;flink双流join如何确保数据不丢失
Reply | Threaded
Open this post in threaded view
|

Re:flink双流join如何确保数据不丢失

Smile
This post was updated on .
In reply to this post by lxk7491@163.com
用 left join 或者 full join?这样的话关联不上的数据在区间结束的时候也会被输出,对侧表的字段用 null 填充。
目前 DataStream API 里面 Interval Join 还不支持 outer join,不过 Table API/SQL 是支持的,参考[1]。

[1]. https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/table/tableApi.html#joins
在 2021-02-08 19:05:56,"lxk7491@163.com" <lxk7491@163.com> 写道:
>
>目前在使用flink进行双流join,多是使用interval join,根据经验值给定时间间隔,那么该如何保证数据不丢失呢?
>如果数据晚于这个时间间隔,那么数据就被丢弃了,而我做的是关于订单的数据,这是不被允许的。
>
>
>lxk7491@163.com