Apache Flink 中文用户邮件列表

请教Flink中关于窗口的问题

Classic

List

Threaded

2 messages Options

syumialiu

请教Flink中关于窗口的问题

我在一个job中有一些很大的数据（key的种类很少，但是单个key下的数据数量很多），基本要实现的是一个时间滑动窗口结束时，当某个key的数量大于一个固定值后，将该key下的所有原数据输出。我现在的方法是将key加后缀，然后keyBy做窗口，但是这个做完之后还是需要再次keyBy把数据还原回去，并且这个过程又将全量数据拉到了一个节点上，请问有没有一些别的解决方法？

| |
syumialiu
|
|
[hidden email]
|
签名由网易邮箱大师定制

nobleyd

Re: 请教Flink中关于窗口的问题

你这个方法就可以的哈，至于第二个窗口又聚到一个结点的问题本身就是原始问题，基于你的方法缓解即可，第二层不可避免的。
你需要做的是调整合理的参数，使得第二层的数据虽然不均衡，但数据量以及足够低就可以了。
此外，还需要注意，当前key数量假设1w，加10随机就是10w，加100随机就是100w。这个key的膨胀也很严重的。最好的做法是仅针对高数据量的key分拆。

syumialiu <[hidden email]> 于2021年1月5日周二下午11:53写道：

>
> 我在一个job中有一些很大的数据（key的种类很少，但是单个key下的数据数量很多），基本要实现的是一个时间滑动窗口结束时，当某个key的数量大于一个固定值后，将该key下的所有原数据输出。我现在的方法是将key加后缀，然后keyBy做窗口，但是这个做完之后还是需要再次keyBy把数据还原回去，并且这个过程又将全量数据拉到了一个节点上，请问有没有一些别的解决方法？
>
>
> | |
> syumialiu
> |
> |
> [hidden email]
> |
> 签名由网易邮箱大师定制