一个关于实时合并数据的问题

classic Classic list List threaded Threaded
3 messages Options
Reply | Threaded
Open this post in threaded view
|

一个关于实时合并数据的问题

bradyMk
CONTENTS DELETED
The author has deleted this message.
Reply | Threaded
Open this post in threaded view
|

回复:一个关于实时合并数据的问题

吴磊-2
hello~&nbsp; 根据 id 去重并不意味着根据 id 做 keyby 分组,比如可以将 id 做个 mod 分成若干有限组,然后在 processFunction 中 MapState 存储 <id, 1&gt; 进行去重处理


Best Wishes By wulei




------------------&nbsp;原始邮件&nbsp;------------------
发件人: "bradyMk"<[hidden email]&gt;;
发送时间: 2020年12月4日(星期五) 下午4:42
收件人: "user-zh"<[hidden email]&gt;;
主题: 一个关于实时合并数据的问题



想请教各位一个问题:目前有一个这样的需求:

数据流40W/s,数据有id,time,type....等字段,id有10亿个,现在想30分钟内,同一个id的信息只保存一条,时间的话要用事件的事件,不能用处理的时间。

本人现在的思路是:根据id分组,然后做增量ck,状态信息存储每个id的最后的时间,然后每来一条数据会读取状态信息,然后做时间判断。但是发现这样做背压很高,数据消费很慢

请问各位,我这种思路是否可行?根据id分组会产生10亿个分组,这样会影响什么?还有其他更好的方法么?

谢谢各位解答疑惑!




-----
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/
Reply | Threaded
Open this post in threaded view
|

Re: 回复:一个关于实时合并数据的问题

bradyMk
CONTENTS DELETED
The author has deleted this message.