Flink SQL中Source和sink可以通过修改connector配置实现并发度配置,而其他算子的并发度都是根据Source并发度来设置的,这样最多是128个并发度。但是有些算子做聚合等处理,128并发明显不够这个应该怎么解决呢?支持通过配置设置其他算子并发度吗?
[hidden email] |
了解下多少数据量呀,128的并发其实很高了感觉。
[hidden email] <[hidden email]> 于2020年12月26日周六 下午5:39写道: > Flink > SQL中Source和sink可以通过修改connector配置实现并发度配置,而其他算子的并发度都是根据Source并发度来设置的,这样最多是128个并发度。但是有些算子做聚合等处理,128并发明显不够这个应该怎么解决呢?支持通过配置设置其他算子并发度吗? > > > > [hidden email] > |
可以通过该配置[1]来设置
[1] https://ci.apache.org/projects/flink/flink-docs-master/dev/table/config.html#table-exec-resource-default-parallelism 赵一旦 <[hidden email]> 于2020年12月27日周日 下午12:44写道: > 了解下多少数据量呀,128的并发其实很高了感觉。 > > [hidden email] <[hidden email]> 于2020年12月26日周六 下午5:39写道: > > > Flink > > > SQL中Source和sink可以通过修改connector配置实现并发度配置,而其他算子的并发度都是根据Source并发度来设置的,这样最多是128个并发度。但是有些算子做聚合等处理,128并发明显不够这个应该怎么解决呢?支持通过配置设置其他算子并发度吗? > > > > > > > > [hidden email] > > > |
还有个问题。对于window算子来说,keyBy的partition的最大并行度会设置为下游算子的最大并行度。
然后假设我window的并行度为30,那么默认情况window的最大并行度是128。我在想,如果按照平均考虑,这种情况是不是从机制上就已经有大概率会导致数据倾斜了呢?设置成32对于128才可以均衡不是吗。 Shengkai Fang <[hidden email]> 于2020年12月27日周日 下午3:46写道: > 可以通过该配置[1]来设置 > > [1] > > https://ci.apache.org/projects/flink/flink-docs-master/dev/table/config.html#table-exec-resource-default-parallelism > > 赵一旦 <[hidden email]> 于2020年12月27日周日 下午12:44写道: > > > 了解下多少数据量呀,128的并发其实很高了感觉。 > > > > [hidden email] <[hidden email]> 于2020年12月26日周六 下午5:39写道: > > > > > Flink > > > > > > SQL中Source和sink可以通过修改connector配置实现并发度配置,而其他算子的并发度都是根据Source并发度来设置的,这样最多是128个并发度。但是有些算子做聚合等处理,128并发明显不够这个应该怎么解决呢?支持通过配置设置其他算子并发度吗? > > > > > > > > > > > > [hidden email] > > > > > > |
hi, 如果热点是某个key的数据量较大造成的,那么re-partition依旧无法解决这个问题。
个人认为最好的解决办法是基于window的 mini-batch 以及 local-global agg,社区正在解这类问题,可以关注下[1] [1]https://issues.apache.org/jira/browse/FLINK-19604 赵一旦 <[hidden email]> 于2020年12月28日周一 上午10:31写道: > 还有个问题。对于window算子来说,keyBy的partition的最大并行度会设置为下游算子的最大并行度。 > > 然后假设我window的并行度为30,那么默认情况window的最大并行度是128。我在想,如果按照平均考虑,这种情况是不是从机制上就已经有大概率会导致数据倾斜了呢?设置成32对于128才可以均衡不是吗。 > > Shengkai Fang <[hidden email]> 于2020年12月27日周日 下午3:46写道: > > > 可以通过该配置[1]来设置 > > > > [1] > > > > > https://ci.apache.org/projects/flink/flink-docs-master/dev/table/config.html#table-exec-resource-default-parallelism > > > > 赵一旦 <[hidden email]> 于2020年12月27日周日 下午12:44写道: > > > > > 了解下多少数据量呀,128的并发其实很高了感觉。 > > > > > > [hidden email] <[hidden email]> 于2020年12月26日周六 > 下午5:39写道: > > > > > > > Flink > > > > > > > > > > SQL中Source和sink可以通过修改connector配置实现并发度配置,而其他算子的并发度都是根据Source并发度来设置的,这样最多是128个并发度。但是有些算子做聚合等处理,128并发明显不够这个应该怎么解决呢?支持通过配置设置其他算子并发度吗? > > > > > > > > > > > > > > > > [hidden email] > > > > > > > > > > |
是否有必要将并行度设置为128的约数我意思是。
Shengkai Fang <[hidden email]> 于2020年12月28日周一 上午10:38写道: > hi, 如果热点是某个key的数据量较大造成的,那么re-partition依旧无法解决这个问题。 > 个人认为最好的解决办法是基于window的 mini-batch 以及 local-global agg,社区正在解这类问题,可以关注下[1] > > [1]https://issues.apache.org/jira/browse/FLINK-19604 > > 赵一旦 <[hidden email]> 于2020年12月28日周一 上午10:31写道: > > > 还有个问题。对于window算子来说,keyBy的partition的最大并行度会设置为下游算子的最大并行度。 > > > > > 然后假设我window的并行度为30,那么默认情况window的最大并行度是128。我在想,如果按照平均考虑,这种情况是不是从机制上就已经有大概率会导致数据倾斜了呢?设置成32对于128才可以均衡不是吗。 > > > > Shengkai Fang <[hidden email]> 于2020年12月27日周日 下午3:46写道: > > > > > 可以通过该配置[1]来设置 > > > > > > [1] > > > > > > > > > https://ci.apache.org/projects/flink/flink-docs-master/dev/table/config.html#table-exec-resource-default-parallelism > > > > > > 赵一旦 <[hidden email]> 于2020年12月27日周日 下午12:44写道: > > > > > > > 了解下多少数据量呀,128的并发其实很高了感觉。 > > > > > > > > [hidden email] <[hidden email]> 于2020年12月26日周六 > > 下午5:39写道: > > > > > > > > > Flink > > > > > > > > > > > > > > > SQL中Source和sink可以通过修改connector配置实现并发度配置,而其他算子的并发度都是根据Source并发度来设置的,这样最多是128个并发度。但是有些算子做聚合等处理,128并发明显不够这个应该怎么解决呢?支持通过配置设置其他算子并发度吗? > > > > > > > > > > > > > > > > > > > > [hidden email] > > > > > > > > > > > > > > > |
根据 keyGroup 的实现特性,并发度最好是 2 的 n 次方。
在 2020-12-28 10:38:23,"赵一旦" <[hidden email]> 写道: >是否有必要将并行度设置为128的约数我意思是。 > >Shengkai Fang <[hidden email]> 于2020年12月28日周一 上午10:38写道: > >> hi, 如果热点是某个key的数据量较大造成的,那么re-partition依旧无法解决这个问题。 >> 个人认为最好的解决办法是基于window的 mini-batch 以及 local-global agg,社区正在解这类问题,可以关注下[1] >> >> [1]https://issues.apache.org/jira/browse/FLINK-19604 >> >> 赵一旦 <[hidden email]> 于2020年12月28日周一 上午10:31写道: >> >> > 还有个问题。对于window算子来说,keyBy的partition的最大并行度会设置为下游算子的最大并行度。 >> > >> > >> 然后假设我window的并行度为30,那么默认情况window的最大并行度是128。我在想,如果按照平均考虑,这种情况是不是从机制上就已经有大概率会导致数据倾斜了呢?设置成32对于128才可以均衡不是吗。 >> > >> > Shengkai Fang <[hidden email]> 于2020年12月27日周日 下午3:46写道: >> > >> > > 可以通过该配置[1]来设置 >> > > >> > > [1] >> > > >> > > >> > >> https://ci.apache.org/projects/flink/flink-docs-master/dev/table/config.html#table-exec-resource-default-parallelism >> > > >> > > 赵一旦 <[hidden email]> 于2020年12月27日周日 下午12:44写道: >> > > >> > > > 了解下多少数据量呀,128的并发其实很高了感觉。 >> > > > >> > > > [hidden email] <[hidden email]> 于2020年12月26日周六 >> > 下午5:39写道: >> > > > >> > > > > Flink >> > > > > >> > > > >> > > >> > >> SQL中Source和sink可以通过修改connector配置实现并发度配置,而其他算子的并发度都是根据Source并发度来设置的,这样最多是128个并发度。但是有些算子做聚合等处理,128并发明显不够这个应该怎么解决呢?支持通过配置设置其他算子并发度吗? >> > > > > >> > > > > >> > > > > >> > > > > [hidden email] >> > > > > >> > > > >> > > >> > >> |
Free forum by Nabble | Edit this page |