大家好,请教一个问题
我的程序以kafka为数据源 去重清洗后入kafka sink,使用的是DataStreamAPI,on-yarn模式,flink版本1.8。程序消费三个topic,以List方式传入的如下
public FlinkKafkaConsumer010(List<String> topics, KafkaDeserializationSchema<T> deserializer, Properties props)
三个topic因为历史原因导致每个partition数据分配不均匀。我采用了
DataStream<Tuple3<String, JSONObject, AppenderRecord>> dataStream = env.addSource(initConsumer()).name("allTopic").rebalance(); //之后keyBy -> process etc.
但是实际上我的subTask并没有均匀分配,如图:
请教下会是什么原因呢?谢谢