Apache Flink 中文用户邮件列表

一个关于实时合并数据的问题

Classic

List

Threaded

3 messages Options

bradyMk

一个关于实时合并数据的问题

CONTENTS DELETED

The author has deleted this message.

吴磊-2

回复：一个关于实时合并数据的问题

hello～  根据 id 去重并不意味着根据 id 做 keyby 分组，比如可以将 id 做个 mod 分成若干有限组，然后在 processFunction 中 MapState 存储 <id, 1> 进行去重处理

Best Wishes By wulei

------------------ 原始邮件 ------------------
发件人: "bradyMk"<[hidden email]>;
发送时间: 2020年12月4日(星期五) 下午4:42
收件人: "user-zh"<[hidden email]>;
主题: 一个关于实时合并数据的问题

想请教各位一个问题：目前有一个这样的需求：

数据流40W/s,数据有id，time，type....等字段，id有10亿个，现在想30分钟内，同一个id的信息只保存一条，时间的话要用事件的事件，不能用处理的时间。

本人现在的思路是：根据id分组，然后做增量ck，状态信息存储每个id的最后的时间，然后每来一条数据会读取状态信息，然后做时间判断。但是发现这样做背压很高，数据消费很慢

请问各位，我这种思路是否可行？根据id分组会产生10亿个分组，这样会影响什么？还有其他更好的方法么？

谢谢各位解答疑惑！

-----
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

bradyMk

Re: 回复：一个关于实时合并数据的问题

CONTENTS DELETED

The author has deleted this message.