hello~ 根据 id 去重并不意味着根据 id 做 keyby 分组,比如可以将 id 做个 mod 分成若干有限组,然后在 processFunction 中 MapState 存储 <id, 1> 进行去重处理
Best Wishes By wulei
------------------ 原始邮件 ------------------
发件人: "bradyMk"<
[hidden email]>;
发送时间: 2020年12月4日(星期五) 下午4:42
收件人: "user-zh"<
[hidden email]>;
主题: 一个关于实时合并数据的问题
想请教各位一个问题:目前有一个这样的需求:
数据流40W/s,数据有id,time,type....等字段,id有10亿个,现在想30分钟内,同一个id的信息只保存一条,时间的话要用事件的事件,不能用处理的时间。
本人现在的思路是:根据id分组,然后做增量ck,状态信息存储每个id的最后的时间,然后每来一条数据会读取状态信息,然后做时间判断。但是发现这样做背压很高,数据消费很慢
请问各位,我这种思路是否可行?根据id分组会产生10亿个分组,这样会影响什么?还有其他更好的方法么?
谢谢各位解答疑惑!
-----
Best Wishes
--
Sent from:
http://apache-flink.147419.n8.nabble.com/