Flink SQL并发度设置问题

classic Classic list List threaded Threaded
7 messages Options
Reply | Threaded
Open this post in threaded view
|

Flink SQL并发度设置问题

guaishushu1103@163.com
    Flink SQL中Source和sink可以通过修改connector配置实现并发度配置,而其他算子的并发度都是根据Source并发度来设置的,这样最多是128个并发度。但是有些算子做聚合等处理,128并发明显不够这个应该怎么解决呢?支持通过配置设置其他算子并发度吗?



[hidden email]
Reply | Threaded
Open this post in threaded view
|

Re: Flink SQL并发度设置问题

nobleyd
了解下多少数据量呀,128的并发其实很高了感觉。

[hidden email] <[hidden email]> 于2020年12月26日周六 下午5:39写道:

>     Flink
> SQL中Source和sink可以通过修改connector配置实现并发度配置,而其他算子的并发度都是根据Source并发度来设置的,这样最多是128个并发度。但是有些算子做聚合等处理,128并发明显不够这个应该怎么解决呢?支持通过配置设置其他算子并发度吗?
>
>
>
> [hidden email]
>
Reply | Threaded
Open this post in threaded view
|

Re: Flink SQL并发度设置问题

Shengkai Fang
可以通过该配置[1]来设置

[1]
https://ci.apache.org/projects/flink/flink-docs-master/dev/table/config.html#table-exec-resource-default-parallelism

赵一旦 <[hidden email]> 于2020年12月27日周日 下午12:44写道:

> 了解下多少数据量呀,128的并发其实很高了感觉。
>
> [hidden email] <[hidden email]> 于2020年12月26日周六 下午5:39写道:
>
> >     Flink
> >
> SQL中Source和sink可以通过修改connector配置实现并发度配置,而其他算子的并发度都是根据Source并发度来设置的,这样最多是128个并发度。但是有些算子做聚合等处理,128并发明显不够这个应该怎么解决呢?支持通过配置设置其他算子并发度吗?
> >
> >
> >
> > [hidden email]
> >
>
Reply | Threaded
Open this post in threaded view
|

Re: Flink SQL并发度设置问题

nobleyd
还有个问题。对于window算子来说,keyBy的partition的最大并行度会设置为下游算子的最大并行度。
然后假设我window的并行度为30,那么默认情况window的最大并行度是128。我在想,如果按照平均考虑,这种情况是不是从机制上就已经有大概率会导致数据倾斜了呢?设置成32对于128才可以均衡不是吗。

Shengkai Fang <[hidden email]> 于2020年12月27日周日 下午3:46写道:

> 可以通过该配置[1]来设置
>
> [1]
>
> https://ci.apache.org/projects/flink/flink-docs-master/dev/table/config.html#table-exec-resource-default-parallelism
>
> 赵一旦 <[hidden email]> 于2020年12月27日周日 下午12:44写道:
>
> > 了解下多少数据量呀,128的并发其实很高了感觉。
> >
> > [hidden email] <[hidden email]> 于2020年12月26日周六 下午5:39写道:
> >
> > >     Flink
> > >
> >
> SQL中Source和sink可以通过修改connector配置实现并发度配置,而其他算子的并发度都是根据Source并发度来设置的,这样最多是128个并发度。但是有些算子做聚合等处理,128并发明显不够这个应该怎么解决呢?支持通过配置设置其他算子并发度吗?
> > >
> > >
> > >
> > > [hidden email]
> > >
> >
>
Reply | Threaded
Open this post in threaded view
|

Re: Flink SQL并发度设置问题

Shengkai Fang
hi, 如果热点是某个key的数据量较大造成的,那么re-partition依旧无法解决这个问题。
个人认为最好的解决办法是基于window的 mini-batch 以及 local-global agg,社区正在解这类问题,可以关注下[1]

[1]https://issues.apache.org/jira/browse/FLINK-19604

赵一旦 <[hidden email]> 于2020年12月28日周一 上午10:31写道:

> 还有个问题。对于window算子来说,keyBy的partition的最大并行度会设置为下游算子的最大并行度。
>
> 然后假设我window的并行度为30,那么默认情况window的最大并行度是128。我在想,如果按照平均考虑,这种情况是不是从机制上就已经有大概率会导致数据倾斜了呢?设置成32对于128才可以均衡不是吗。
>
> Shengkai Fang <[hidden email]> 于2020年12月27日周日 下午3:46写道:
>
> > 可以通过该配置[1]来设置
> >
> > [1]
> >
> >
> https://ci.apache.org/projects/flink/flink-docs-master/dev/table/config.html#table-exec-resource-default-parallelism
> >
> > 赵一旦 <[hidden email]> 于2020年12月27日周日 下午12:44写道:
> >
> > > 了解下多少数据量呀,128的并发其实很高了感觉。
> > >
> > > [hidden email] <[hidden email]> 于2020年12月26日周六
> 下午5:39写道:
> > >
> > > >     Flink
> > > >
> > >
> >
> SQL中Source和sink可以通过修改connector配置实现并发度配置,而其他算子的并发度都是根据Source并发度来设置的,这样最多是128个并发度。但是有些算子做聚合等处理,128并发明显不够这个应该怎么解决呢?支持通过配置设置其他算子并发度吗?
> > > >
> > > >
> > > >
> > > > [hidden email]
> > > >
> > >
> >
>
Reply | Threaded
Open this post in threaded view
|

Re: Flink SQL并发度设置问题

nobleyd
是否有必要将并行度设置为128的约数我意思是。

Shengkai Fang <[hidden email]> 于2020年12月28日周一 上午10:38写道:

> hi, 如果热点是某个key的数据量较大造成的,那么re-partition依旧无法解决这个问题。
> 个人认为最好的解决办法是基于window的 mini-batch 以及 local-global agg,社区正在解这类问题,可以关注下[1]
>
> [1]https://issues.apache.org/jira/browse/FLINK-19604
>
> 赵一旦 <[hidden email]> 于2020年12月28日周一 上午10:31写道:
>
> > 还有个问题。对于window算子来说,keyBy的partition的最大并行度会设置为下游算子的最大并行度。
> >
> >
> 然后假设我window的并行度为30,那么默认情况window的最大并行度是128。我在想,如果按照平均考虑,这种情况是不是从机制上就已经有大概率会导致数据倾斜了呢?设置成32对于128才可以均衡不是吗。
> >
> > Shengkai Fang <[hidden email]> 于2020年12月27日周日 下午3:46写道:
> >
> > > 可以通过该配置[1]来设置
> > >
> > > [1]
> > >
> > >
> >
> https://ci.apache.org/projects/flink/flink-docs-master/dev/table/config.html#table-exec-resource-default-parallelism
> > >
> > > 赵一旦 <[hidden email]> 于2020年12月27日周日 下午12:44写道:
> > >
> > > > 了解下多少数据量呀,128的并发其实很高了感觉。
> > > >
> > > > [hidden email] <[hidden email]> 于2020年12月26日周六
> > 下午5:39写道:
> > > >
> > > > >     Flink
> > > > >
> > > >
> > >
> >
> SQL中Source和sink可以通过修改connector配置实现并发度配置,而其他算子的并发度都是根据Source并发度来设置的,这样最多是128个并发度。但是有些算子做聚合等处理,128并发明显不够这个应该怎么解决呢?支持通过配置设置其他算子并发度吗?
> > > > >
> > > > >
> > > > >
> > > > > [hidden email]
> > > > >
> > > >
> > >
> >
>
Reply | Threaded
Open this post in threaded view
|

Re:Re: Flink SQL并发度设置问题

hailongwang
根据 keyGroup 的实现特性,并发度最好是 2 的 n 次方。


在 2020-12-28 10:38:23,"赵一旦" <[hidden email]> 写道:

>是否有必要将并行度设置为128的约数我意思是。
>
>Shengkai Fang <[hidden email]> 于2020年12月28日周一 上午10:38写道:
>
>> hi, 如果热点是某个key的数据量较大造成的,那么re-partition依旧无法解决这个问题。
>> 个人认为最好的解决办法是基于window的 mini-batch 以及 local-global agg,社区正在解这类问题,可以关注下[1]
>>
>> [1]https://issues.apache.org/jira/browse/FLINK-19604
>>
>> 赵一旦 <[hidden email]> 于2020年12月28日周一 上午10:31写道:
>>
>> > 还有个问题。对于window算子来说,keyBy的partition的最大并行度会设置为下游算子的最大并行度。
>> >
>> >
>> 然后假设我window的并行度为30,那么默认情况window的最大并行度是128。我在想,如果按照平均考虑,这种情况是不是从机制上就已经有大概率会导致数据倾斜了呢?设置成32对于128才可以均衡不是吗。
>> >
>> > Shengkai Fang <[hidden email]> 于2020年12月27日周日 下午3:46写道:
>> >
>> > > 可以通过该配置[1]来设置
>> > >
>> > > [1]
>> > >
>> > >
>> >
>> https://ci.apache.org/projects/flink/flink-docs-master/dev/table/config.html#table-exec-resource-default-parallelism
>> > >
>> > > 赵一旦 <[hidden email]> 于2020年12月27日周日 下午12:44写道:
>> > >
>> > > > 了解下多少数据量呀,128的并发其实很高了感觉。
>> > > >
>> > > > [hidden email] <[hidden email]> 于2020年12月26日周六
>> > 下午5:39写道:
>> > > >
>> > > > >     Flink
>> > > > >
>> > > >
>> > >
>> >
>> SQL中Source和sink可以通过修改connector配置实现并发度配置,而其他算子的并发度都是根据Source并发度来设置的,这样最多是128个并发度。但是有些算子做聚合等处理,128并发明显不够这个应该怎么解决呢?支持通过配置设置其他算子并发度吗?
>> > > > >
>> > > > >
>> > > > >
>> > > > > [hidden email]
>> > > > >
>> > > >
>> > >
>> >
>>