请教大家一个问题,flink实时任务消费kafka写入到kafka,Flink版本是1.9.1 线上kafka集群为1.1.1
kafka集群为容器化集群部署在K8s上,任务运行了很久 今天突然发现任务的数据产出降低了很多,发现cp 没有问题 kafka消费没有积压,也没有反压, 也没有任何异常日志,kafka集群也没有异常,flink集群也没有异常,但是发现监控上tm的cpu负载也降低了 tm上网卡流量也降低了,除此之外没有其他异常信息,大家又遇到这种情况的吗、 |
Hi Yang Peng: 根据你的描述,可以猜测瓶颈是在 Source 上,有可能以下情况: 1. Kafka 集群和Flink 集群之间的带宽被其它打满了。 2. Source 的序列化耗时严重,导致拉取变慢。 可以尝试着扩kafka 分区,加大Source并发看下。 Best, Hailong Wang 在 2020-09-29 19:44:44,"Yang Peng" <[hidden email]> 写道: >请教大家一个问题,flink实时任务消费kafka写入到kafka,Flink版本是1.9.1 线上kafka集群为1.1.1 >kafka集群为容器化集群部署在K8s上,任务运行了很久 今天突然发现任务的数据产出降低了很多,发现cp 没有问题 >kafka消费没有积压,也没有反压, 也没有任何异常日志,kafka集群也没有异常,flink集群也没有异常,但是发现监控上tm的cpu负载也降低了 >tm上网卡流量也降低了,除此之外没有其他异常信息,大家又遇到这种情况的吗、 |
感谢回复,我重启完任务之后消费恢复了,我查看了我们的监控(监控kafkamanager上groupid消费速度)发现消费速度并没有下降,目前分区是90
flinkkafkaconsumer消费的并行度也是90 应该不是分区的问题,至于2这个source序列化耗时严重这个有什么方式可以查看吗? hailongwang <[hidden email]> 于2020年9月29日周二 下午8:59写道: > > > > Hi Yang Peng: > 根据你的描述,可以猜测瓶颈是在 Source 上,有可能以下情况: > 1. Kafka 集群和Flink 集群之间的带宽被其它打满了。 > 2. Source 的序列化耗时严重,导致拉取变慢。 > 可以尝试着扩kafka 分区,加大Source并发看下。 > Best, > Hailong Wang > > 在 2020-09-29 19:44:44,"Yang Peng" <[hidden email]> 写道: > >请教大家一个问题,flink实时任务消费kafka写入到kafka,Flink版本是1.9.1 线上kafka集群为1.1.1 > >kafka集群为容器化集群部署在K8s上,任务运行了很久 今天突然发现任务的数据产出降低了很多,发现cp 没有问题 > >kafka消费没有积压,也没有反压, 也没有任何异常日志,kafka集群也没有异常,flink集群也没有异常,但是发现监控上tm的cpu负载也降低了 > >tm上网卡流量也降低了,除此之外没有其他异常信息,大家又遇到这种情况的吗、 > |
不过也比较奇怪,Source 数据的 format的话,应该不会使得 CPU 降低,这期间 Iowait 高吗 也可以 jstack 采下堆栈看下,GC等看下。 至于 Source format 能力的话,可以自己测试下单个线程的QPS多少,然后乘以 Partition个数就是了。 Best, Hailong Wang 在 2020-09-29 20:06:50,"Yang Peng" <[hidden email]> 写道: >感谢回复,我重启完任务之后消费恢复了,我查看了我们的监控(监控kafkamanager上groupid消费速度)发现消费速度并没有下降,目前分区是90 >flinkkafkaconsumer消费的并行度也是90 应该不是分区的问题,至于2这个source序列化耗时严重这个有什么方式可以查看吗? > >hailongwang <[hidden email]> 于2020年9月29日周二 下午8:59写道: > >> >> >> >> Hi Yang Peng: >> 根据你的描述,可以猜测瓶颈是在 Source 上,有可能以下情况: >> 1. Kafka 集群和Flink 集群之间的带宽被其它打满了。 >> 2. Source 的序列化耗时严重,导致拉取变慢。 >> 可以尝试着扩kafka 分区,加大Source并发看下。 >> Best, >> Hailong Wang >> >> 在 2020-09-29 19:44:44,"Yang Peng" <[hidden email]> 写道: >> >请教大家一个问题,flink实时任务消费kafka写入到kafka,Flink版本是1.9.1 线上kafka集群为1.1.1 >> >kafka集群为容器化集群部署在K8s上,任务运行了很久 今天突然发现任务的数据产出降低了很多,发现cp 没有问题 >> >kafka消费没有积压,也没有反压, 也没有任何异常日志,kafka集群也没有异常,flink集群也没有异常,但是发现监控上tm的cpu负载也降低了 >> >tm上网卡流量也降低了,除此之外没有其他异常信息,大家又遇到这种情况的吗、 >> |
感谢回复,我们看了consumer的lag很小
而且监控显示数据流入量也没明显变化但是感觉这部分数据只是offset被更新了但是数据没有消费到,这个问题之前没有遇到过 这是突发发现的 而且任务重启了没法jstack判断了 hailongwang <[hidden email]> 于2020年9月29日周二 下午10:35写道: > > > > 不过也比较奇怪,Source 数据的 format的话,应该不会使得 CPU 降低,这期间 Iowait 高吗 > 也可以 jstack 采下堆栈看下,GC等看下。 > 至于 Source format 能力的话,可以自己测试下单个线程的QPS多少,然后乘以 Partition个数就是了。 > Best, > Hailong Wang > 在 2020-09-29 20:06:50,"Yang Peng" <[hidden email]> 写道: > > >感谢回复,我重启完任务之后消费恢复了,我查看了我们的监控(监控kafkamanager上groupid消费速度)发现消费速度并没有下降,目前分区是90 > >flinkkafkaconsumer消费的并行度也是90 应该不是分区的问题,至于2这个source序列化耗时严重这个有什么方式可以查看吗? > > > >hailongwang <[hidden email]> 于2020年9月29日周二 下午8:59写道: > > > >> > >> > >> > >> Hi Yang Peng: > >> 根据你的描述,可以猜测瓶颈是在 Source 上,有可能以下情况: > >> 1. Kafka 集群和Flink 集群之间的带宽被其它打满了。 > >> 2. Source 的序列化耗时严重,导致拉取变慢。 > >> 可以尝试着扩kafka 分区,加大Source并发看下。 > >> Best, > >> Hailong Wang > >> > >> 在 2020-09-29 19:44:44,"Yang Peng" <[hidden email]> 写道: > >> >请教大家一个问题,flink实时任务消费kafka写入到kafka,Flink版本是1.9.1 线上kafka集群为1.1.1 > >> >kafka集群为容器化集群部署在K8s上,任务运行了很久 今天突然发现任务的数据产出降低了很多,发现cp 没有问题 > >> >kafka消费没有积压,也没有反压, > 也没有任何异常日志,kafka集群也没有异常,flink集群也没有异常,但是发现监控上tm的cpu负载也降低了 > >> >tm上网卡流量也降低了,除此之外没有其他异常信息,大家又遇到这种情况的吗、 > >> > |
Hi Yang,
你的意思是上游输出没变,全链路没有负载升高甚至反而降低,sink 输出变少么? 如果全链路没有异常也没有负载升高、流量阻塞,那感觉就是业务逻辑的实际结果,可以看看输入数据的内容有没有变化。 Best, tison. Yang Peng <[hidden email]> 于2020年9月30日周三 上午10:29写道: > 感谢回复,我们看了consumer的lag很小 > 而且监控显示数据流入量也没明显变化但是感觉这部分数据只是offset被更新了但是数据没有消费到,这个问题之前没有遇到过 这是突发发现的 > 而且任务重启了没法jstack判断了 > > hailongwang <[hidden email]> 于2020年9月29日周二 下午10:35写道: > > > > > > > > > 不过也比较奇怪,Source 数据的 format的话,应该不会使得 CPU 降低,这期间 Iowait 高吗 > > 也可以 jstack 采下堆栈看下,GC等看下。 > > 至于 Source format 能力的话,可以自己测试下单个线程的QPS多少,然后乘以 Partition个数就是了。 > > Best, > > Hailong Wang > > 在 2020-09-29 20:06:50,"Yang Peng" <[hidden email]> 写道: > > > > > >感谢回复,我重启完任务之后消费恢复了,我查看了我们的监控(监控kafkamanager上groupid消费速度)发现消费速度并没有下降,目前分区是90 > > >flinkkafkaconsumer消费的并行度也是90 应该不是分区的问题,至于2这个source序列化耗时严重这个有什么方式可以查看吗? > > > > > >hailongwang <[hidden email]> 于2020年9月29日周二 下午8:59写道: > > > > > >> > > >> > > >> > > >> Hi Yang Peng: > > >> 根据你的描述,可以猜测瓶颈是在 Source 上,有可能以下情况: > > >> 1. Kafka 集群和Flink 集群之间的带宽被其它打满了。 > > >> 2. Source 的序列化耗时严重,导致拉取变慢。 > > >> 可以尝试着扩kafka 分区,加大Source并发看下。 > > >> Best, > > >> Hailong Wang > > >> > > >> 在 2020-09-29 19:44:44,"Yang Peng" <[hidden email]> 写道: > > >> >请教大家一个问题,flink实时任务消费kafka写入到kafka,Flink版本是1.9.1 线上kafka集群为1.1.1 > > >> >kafka集群为容器化集群部署在K8s上,任务运行了很久 今天突然发现任务的数据产出降低了很多,发现cp 没有问题 > > >> >kafka消费没有积压,也没有反压, > > 也没有任何异常日志,kafka集群也没有异常,flink集群也没有异常,但是发现监控上tm的cpu负载也降低了 > > >> >tm上网卡流量也降低了,除此之外没有其他异常信息,大家又遇到这种情况的吗、 > > >> > > > |
感谢回复,是的,之前确实怀疑是业务逻辑导致的
但是重启任务之后数据输出恢复了,而且让任务从故障点重新消费也没发现问题,我们这个任务已经跑了几个月了第一次遇到这种问题 tison <[hidden email]> 于2020年9月30日周三 下午2:33写道: > Hi Yang, > > 你的意思是上游输出没变,全链路没有负载升高甚至反而降低,sink 输出变少么? > > 如果全链路没有异常也没有负载升高、流量阻塞,那感觉就是业务逻辑的实际结果,可以看看输入数据的内容有没有变化。 > > Best, > tison. > > > Yang Peng <[hidden email]> 于2020年9月30日周三 上午10:29写道: > > > 感谢回复,我们看了consumer的lag很小 > > 而且监控显示数据流入量也没明显变化但是感觉这部分数据只是offset被更新了但是数据没有消费到,这个问题之前没有遇到过 这是突发发现的 > > 而且任务重启了没法jstack判断了 > > > > hailongwang <[hidden email]> 于2020年9月29日周二 下午10:35写道: > > > > > > > > > > > > > > 不过也比较奇怪,Source 数据的 format的话,应该不会使得 CPU 降低,这期间 Iowait 高吗 > > > 也可以 jstack 采下堆栈看下,GC等看下。 > > > 至于 Source format 能力的话,可以自己测试下单个线程的QPS多少,然后乘以 Partition个数就是了。 > > > Best, > > > Hailong Wang > > > 在 2020-09-29 20:06:50,"Yang Peng" <[hidden email]> 写道: > > > > > > > > > >感谢回复,我重启完任务之后消费恢复了,我查看了我们的监控(监控kafkamanager上groupid消费速度)发现消费速度并没有下降,目前分区是90 > > > >flinkkafkaconsumer消费的并行度也是90 应该不是分区的问题,至于2这个source序列化耗时严重这个有什么方式可以查看吗? > > > > > > > >hailongwang <[hidden email]> 于2020年9月29日周二 下午8:59写道: > > > > > > > >> > > > >> > > > >> > > > >> Hi Yang Peng: > > > >> 根据你的描述,可以猜测瓶颈是在 Source 上,有可能以下情况: > > > >> 1. Kafka 集群和Flink 集群之间的带宽被其它打满了。 > > > >> 2. Source 的序列化耗时严重,导致拉取变慢。 > > > >> 可以尝试着扩kafka 分区,加大Source并发看下。 > > > >> Best, > > > >> Hailong Wang > > > >> > > > >> 在 2020-09-29 19:44:44,"Yang Peng" <[hidden email]> 写道: > > > >> >请教大家一个问题,flink实时任务消费kafka写入到kafka,Flink版本是1.9.1 线上kafka集群为1.1.1 > > > >> >kafka集群为容器化集群部署在K8s上,任务运行了很久 今天突然发现任务的数据产出降低了很多,发现cp 没有问题 > > > >> >kafka消费没有积压,也没有反压, > > > 也没有任何异常日志,kafka集群也没有异常,flink集群也没有异常,但是发现监控上tm的cpu负载也降低了 > > > >> >tm上网卡流量也降低了,除此之外没有其他异常信息,大家又遇到这种情况的吗、 > > > >> > > > > > > |
那有审计/监控的话看下每个节点的 in/out 记录呗,总能看到是哪一步跌了...
照你现在提供的信息听起来一切正常那就是业务逻辑本身输出少了,不然总得有哪里不一样。如果只有 sink 跌了,那就是 sink 有问题,比如可能依赖了外部环境或者内部积累错误等等。 Best, tison. Yang Peng <[hidden email]> 于2020年9月30日周三 下午5:26写道: > 感谢回复,是的,之前确实怀疑是业务逻辑导致的 > 但是重启任务之后数据输出恢复了,而且让任务从故障点重新消费也没发现问题,我们这个任务已经跑了几个月了第一次遇到这种问题 > > tison <[hidden email]> 于2020年9月30日周三 下午2:33写道: > > > Hi Yang, > > > > 你的意思是上游输出没变,全链路没有负载升高甚至反而降低,sink 输出变少么? > > > > 如果全链路没有异常也没有负载升高、流量阻塞,那感觉就是业务逻辑的实际结果,可以看看输入数据的内容有没有变化。 > > > > Best, > > tison. > > > > > > Yang Peng <[hidden email]> 于2020年9月30日周三 上午10:29写道: > > > > > 感谢回复,我们看了consumer的lag很小 > > > 而且监控显示数据流入量也没明显变化但是感觉这部分数据只是offset被更新了但是数据没有消费到,这个问题之前没有遇到过 这是突发发现的 > > > 而且任务重启了没法jstack判断了 > > > > > > hailongwang <[hidden email]> 于2020年9月29日周二 下午10:35写道: > > > > > > > > > > > > > > > > > > > 不过也比较奇怪,Source 数据的 format的话,应该不会使得 CPU 降低,这期间 Iowait 高吗 > > > > 也可以 jstack 采下堆栈看下,GC等看下。 > > > > 至于 Source format 能力的话,可以自己测试下单个线程的QPS多少,然后乘以 Partition个数就是了。 > > > > Best, > > > > Hailong Wang > > > > 在 2020-09-29 20:06:50,"Yang Peng" <[hidden email]> 写道: > > > > > > > > > > > > > > >感谢回复,我重启完任务之后消费恢复了,我查看了我们的监控(监控kafkamanager上groupid消费速度)发现消费速度并没有下降,目前分区是90 > > > > >flinkkafkaconsumer消费的并行度也是90 > 应该不是分区的问题,至于2这个source序列化耗时严重这个有什么方式可以查看吗? > > > > > > > > > >hailongwang <[hidden email]> 于2020年9月29日周二 下午8:59写道: > > > > > > > > > >> > > > > >> > > > > >> > > > > >> Hi Yang Peng: > > > > >> 根据你的描述,可以猜测瓶颈是在 Source 上,有可能以下情况: > > > > >> 1. Kafka 集群和Flink 集群之间的带宽被其它打满了。 > > > > >> 2. Source 的序列化耗时严重,导致拉取变慢。 > > > > >> 可以尝试着扩kafka 分区,加大Source并发看下。 > > > > >> Best, > > > > >> Hailong Wang > > > > >> > > > > >> 在 2020-09-29 19:44:44,"Yang Peng" <[hidden email]> 写道: > > > > >> >请教大家一个问题,flink实时任务消费kafka写入到kafka,Flink版本是1.9.1 线上kafka集群为1.1.1 > > > > >> >kafka集群为容器化集群部署在K8s上,任务运行了很久 今天突然发现任务的数据产出降低了很多,发现cp 没有问题 > > > > >> >kafka消费没有积压,也没有反压, > > > > 也没有任何异常日志,kafka集群也没有异常,flink集群也没有异常,但是发现监控上tm的cpu负载也降低了 > > > > >> >tm上网卡流量也降低了,除此之外没有其他异常信息,大家又遇到这种情况的吗、 > > > > >> > > > > > > > > > > |
故障点的意思是从开始跌的地方重新消费吗?如果是这样那就是有问题,可以看看之前输出变少是正确数据输出慢了还是有些没输出了,慢了就得看看当时的环境,应该还是会有什么网络或者负载有波动的,没有可能就要怀疑监控系统有问题了;少输出了就是错了,可能是依赖的外部环境不稳定等等。
Best, tison. tison <[hidden email]> 于2020年9月30日周三 下午5:33写道: > 那有审计/监控的话看下每个节点的 in/out 记录呗,总能看到是哪一步跌了... > > 照你现在提供的信息听起来一切正常那就是业务逻辑本身输出少了,不然总得有哪里不一样。如果只有 sink 跌了,那就是 sink > 有问题,比如可能依赖了外部环境或者内部积累错误等等。 > > Best, > tison. > > > Yang Peng <[hidden email]> 于2020年9月30日周三 下午5:26写道: > >> 感谢回复,是的,之前确实怀疑是业务逻辑导致的 >> 但是重启任务之后数据输出恢复了,而且让任务从故障点重新消费也没发现问题,我们这个任务已经跑了几个月了第一次遇到这种问题 >> >> tison <[hidden email]> 于2020年9月30日周三 下午2:33写道: >> >> > Hi Yang, >> > >> > 你的意思是上游输出没变,全链路没有负载升高甚至反而降低,sink 输出变少么? >> > >> > 如果全链路没有异常也没有负载升高、流量阻塞,那感觉就是业务逻辑的实际结果,可以看看输入数据的内容有没有变化。 >> > >> > Best, >> > tison. >> > >> > >> > Yang Peng <[hidden email]> 于2020年9月30日周三 上午10:29写道: >> > >> > > 感谢回复,我们看了consumer的lag很小 >> > > 而且监控显示数据流入量也没明显变化但是感觉这部分数据只是offset被更新了但是数据没有消费到,这个问题之前没有遇到过 这是突发发现的 >> > > 而且任务重启了没法jstack判断了 >> > > >> > > hailongwang <[hidden email]> 于2020年9月29日周二 下午10:35写道: >> > > >> > > > >> > > > >> > > > >> > > > 不过也比较奇怪,Source 数据的 format的话,应该不会使得 CPU 降低,这期间 Iowait 高吗 >> > > > 也可以 jstack 采下堆栈看下,GC等看下。 >> > > > 至于 Source format 能力的话,可以自己测试下单个线程的QPS多少,然后乘以 Partition个数就是了。 >> > > > Best, >> > > > Hailong Wang >> > > > 在 2020-09-29 20:06:50,"Yang Peng" <[hidden email]> 写道: >> > > > >> > > > >> > > >> > >> >感谢回复,我重启完任务之后消费恢复了,我查看了我们的监控(监控kafkamanager上groupid消费速度)发现消费速度并没有下降,目前分区是90 >> > > > >flinkkafkaconsumer消费的并行度也是90 >> 应该不是分区的问题,至于2这个source序列化耗时严重这个有什么方式可以查看吗? >> > > > > >> > > > >hailongwang <[hidden email]> 于2020年9月29日周二 下午8:59写道: >> > > > > >> > > > >> >> > > > >> >> > > > >> >> > > > >> Hi Yang Peng: >> > > > >> 根据你的描述,可以猜测瓶颈是在 Source 上,有可能以下情况: >> > > > >> 1. Kafka 集群和Flink 集群之间的带宽被其它打满了。 >> > > > >> 2. Source 的序列化耗时严重,导致拉取变慢。 >> > > > >> 可以尝试着扩kafka 分区,加大Source并发看下。 >> > > > >> Best, >> > > > >> Hailong Wang >> > > > >> >> > > > >> 在 2020-09-29 19:44:44,"Yang Peng" <[hidden email]> 写道: >> > > > >> >请教大家一个问题,flink实时任务消费kafka写入到kafka,Flink版本是1.9.1 线上kafka集群为1.1.1 >> > > > >> >kafka集群为容器化集群部署在K8s上,任务运行了很久 今天突然发现任务的数据产出降低了很多,发现cp 没有问题 >> > > > >> >kafka消费没有积压,也没有反压, >> > > > 也没有任何异常日志,kafka集群也没有异常,flink集群也没有异常,但是发现监控上tm的cpu负载也降低了 >> > > > >> >tm上网卡流量也降低了,除此之外没有其他异常信息,大家又遇到这种情况的吗、 >> > > > >> >> > > > >> > > >> > >> > |
感谢回复,是的 就是从输出降低的时间点开始重新消费,是输出变少了 有些没有输出 运行任务的机器的网卡流量也变小了,监控系统是没有问题
其他任务的监控都正常 tison <[hidden email]> 于2020年9月30日周三 下午5:37写道: > > 故障点的意思是从开始跌的地方重新消费吗?如果是这样那就是有问题,可以看看之前输出变少是正确数据输出慢了还是有些没输出了,慢了就得看看当时的环境,应该还是会有什么网络或者负载有波动的,没有可能就要怀疑监控系统有问题了;少输出了就是错了,可能是依赖的外部环境不稳定等等。 > > Best, > tison. > > > tison <[hidden email]> 于2020年9月30日周三 下午5:33写道: > > > 那有审计/监控的话看下每个节点的 in/out 记录呗,总能看到是哪一步跌了... > > > > 照你现在提供的信息听起来一切正常那就是业务逻辑本身输出少了,不然总得有哪里不一样。如果只有 sink 跌了,那就是 sink > > 有问题,比如可能依赖了外部环境或者内部积累错误等等。 > > > > Best, > > tison. > > > > > > Yang Peng <[hidden email]> 于2020年9月30日周三 下午5:26写道: > > > >> 感谢回复,是的,之前确实怀疑是业务逻辑导致的 > >> 但是重启任务之后数据输出恢复了,而且让任务从故障点重新消费也没发现问题,我们这个任务已经跑了几个月了第一次遇到这种问题 > >> > >> tison <[hidden email]> 于2020年9月30日周三 下午2:33写道: > >> > >> > Hi Yang, > >> > > >> > 你的意思是上游输出没变,全链路没有负载升高甚至反而降低,sink 输出变少么? > >> > > >> > 如果全链路没有异常也没有负载升高、流量阻塞,那感觉就是业务逻辑的实际结果,可以看看输入数据的内容有没有变化。 > >> > > >> > Best, > >> > tison. > >> > > >> > > >> > Yang Peng <[hidden email]> 于2020年9月30日周三 上午10:29写道: > >> > > >> > > 感谢回复,我们看了consumer的lag很小 > >> > > 而且监控显示数据流入量也没明显变化但是感觉这部分数据只是offset被更新了但是数据没有消费到,这个问题之前没有遇到过 这是突发发现的 > >> > > 而且任务重启了没法jstack判断了 > >> > > > >> > > hailongwang <[hidden email]> 于2020年9月29日周二 下午10:35写道: > >> > > > >> > > > > >> > > > > >> > > > > >> > > > 不过也比较奇怪,Source 数据的 format的话,应该不会使得 CPU 降低,这期间 Iowait 高吗 > >> > > > 也可以 jstack 采下堆栈看下,GC等看下。 > >> > > > 至于 Source format 能力的话,可以自己测试下单个线程的QPS多少,然后乘以 Partition个数就是了。 > >> > > > Best, > >> > > > Hailong Wang > >> > > > 在 2020-09-29 20:06:50,"Yang Peng" <[hidden email]> 写道: > >> > > > > >> > > > > >> > > > >> > > >> > >感谢回复,我重启完任务之后消费恢复了,我查看了我们的监控(监控kafkamanager上groupid消费速度)发现消费速度并没有下降,目前分区是90 > >> > > > >flinkkafkaconsumer消费的并行度也是90 > >> 应该不是分区的问题,至于2这个source序列化耗时严重这个有什么方式可以查看吗? > >> > > > > > >> > > > >hailongwang <[hidden email]> 于2020年9月29日周二 下午8:59写道: > >> > > > > > >> > > > >> > >> > > > >> > >> > > > >> > >> > > > >> Hi Yang Peng: > >> > > > >> 根据你的描述,可以猜测瓶颈是在 Source 上,有可能以下情况: > >> > > > >> 1. Kafka 集群和Flink 集群之间的带宽被其它打满了。 > >> > > > >> 2. Source 的序列化耗时严重,导致拉取变慢。 > >> > > > >> 可以尝试着扩kafka 分区,加大Source并发看下。 > >> > > > >> Best, > >> > > > >> Hailong Wang > >> > > > >> > >> > > > >> 在 2020-09-29 19:44:44,"Yang Peng" <[hidden email]> > 写道: > >> > > > >> >请教大家一个问题,flink实时任务消费kafka写入到kafka,Flink版本是1.9.1 > 线上kafka集群为1.1.1 > >> > > > >> >kafka集群为容器化集群部署在K8s上,任务运行了很久 今天突然发现任务的数据产出降低了很多,发现cp 没有问题 > >> > > > >> >kafka消费没有积压,也没有反压, > >> > > > 也没有任何异常日志,kafka集群也没有异常,flink集群也没有异常,但是发现监控上tm的cpu负载也降低了 > >> > > > >> >tm上网卡流量也降低了,除此之外没有其他异常信息,大家又遇到这种情况的吗、 > >> > > > >> > >> > > > > >> > > > >> > > >> > > > |
In reply to this post by tison
感谢回复,这个任务重启了之后看不到这个in/out指标数据, 我们能查到这个任务依赖的redis的连接查询次数也降低了,好像是任务假死一样
一直在消费数据但是就是不处理数据 没有和redis进行交互 tison <[hidden email]> 于2020年9月30日周三 下午5:34写道: > 那有审计/监控的话看下每个节点的 in/out 记录呗,总能看到是哪一步跌了... > > 照你现在提供的信息听起来一切正常那就是业务逻辑本身输出少了,不然总得有哪里不一样。如果只有 sink 跌了,那就是 sink > 有问题,比如可能依赖了外部环境或者内部积累错误等等。 > > Best, > tison. > > > Yang Peng <[hidden email]> 于2020年9月30日周三 下午5:26写道: > > > 感谢回复,是的,之前确实怀疑是业务逻辑导致的 > > 但是重启任务之后数据输出恢复了,而且让任务从故障点重新消费也没发现问题,我们这个任务已经跑了几个月了第一次遇到这种问题 > > > > tison <[hidden email]> 于2020年9月30日周三 下午2:33写道: > > > > > Hi Yang, > > > > > > 你的意思是上游输出没变,全链路没有负载升高甚至反而降低,sink 输出变少么? > > > > > > 如果全链路没有异常也没有负载升高、流量阻塞,那感觉就是业务逻辑的实际结果,可以看看输入数据的内容有没有变化。 > > > > > > Best, > > > tison. > > > > > > > > > Yang Peng <[hidden email]> 于2020年9月30日周三 上午10:29写道: > > > > > > > 感谢回复,我们看了consumer的lag很小 > > > > 而且监控显示数据流入量也没明显变化但是感觉这部分数据只是offset被更新了但是数据没有消费到,这个问题之前没有遇到过 这是突发发现的 > > > > 而且任务重启了没法jstack判断了 > > > > > > > > hailongwang <[hidden email]> 于2020年9月29日周二 下午10:35写道: > > > > > > > > > > > > > > > > > > > > > > > > 不过也比较奇怪,Source 数据的 format的话,应该不会使得 CPU 降低,这期间 Iowait 高吗 > > > > > 也可以 jstack 采下堆栈看下,GC等看下。 > > > > > 至于 Source format 能力的话,可以自己测试下单个线程的QPS多少,然后乘以 Partition个数就是了。 > > > > > Best, > > > > > Hailong Wang > > > > > 在 2020-09-29 20:06:50,"Yang Peng" <[hidden email]> 写道: > > > > > > > > > > > > > > > > > > > > >感谢回复,我重启完任务之后消费恢复了,我查看了我们的监控(监控kafkamanager上groupid消费速度)发现消费速度并没有下降,目前分区是90 > > > > > >flinkkafkaconsumer消费的并行度也是90 > > 应该不是分区的问题,至于2这个source序列化耗时严重这个有什么方式可以查看吗? > > > > > > > > > > > >hailongwang <[hidden email]> 于2020年9月29日周二 下午8:59写道: > > > > > > > > > > > >> > > > > > >> > > > > > >> > > > > > >> Hi Yang Peng: > > > > > >> 根据你的描述,可以猜测瓶颈是在 Source 上,有可能以下情况: > > > > > >> 1. Kafka 集群和Flink 集群之间的带宽被其它打满了。 > > > > > >> 2. Source 的序列化耗时严重,导致拉取变慢。 > > > > > >> 可以尝试着扩kafka 分区,加大Source并发看下。 > > > > > >> Best, > > > > > >> Hailong Wang > > > > > >> > > > > > >> 在 2020-09-29 19:44:44,"Yang Peng" <[hidden email]> > 写道: > > > > > >> >请教大家一个问题,flink实时任务消费kafka写入到kafka,Flink版本是1.9.1 线上kafka集群为1.1.1 > > > > > >> >kafka集群为容器化集群部署在K8s上,任务运行了很久 今天突然发现任务的数据产出降低了很多,发现cp 没有问题 > > > > > >> >kafka消费没有积压,也没有反压, > > > > > 也没有任何异常日志,kafka集群也没有异常,flink集群也没有异常,但是发现监控上tm的cpu负载也降低了 > > > > > >> >tm上网卡流量也降低了,除此之外没有其他异常信息,大家又遇到这种情况的吗、 > > > > > >> > > > > > > > > > > > > > > > |
要不换个kafka的topic sink测试一下。。我觉得可能是kafka那头的问题,新手只能这样子猜一下。。
-----邮件原件----- 发件人: Yang Peng [mailto:[hidden email]] 发送时间: 2020年9月30日 星期三 18:00 收件人: user-zh <[hidden email]> 主题: Re: Re: Flink消费kafka,突然间任务输出结果从原来的每秒几十万降低到几万每秒 感谢回复,这个任务重启了之后看不到这个in/out指标数据, 我们能查到这个任务依赖的redis的连接查询次数也降低了,好像是任务假死一样 一直在消费数据但是就是不处理数据 没有和redis进行交互 tison <[hidden email]> 于2020年9月30日周三 下午5:34写道: > 那有审计/监控的话看下每个节点的 in/out 记录呗,总能看到是哪一步跌了... > > 照你现在提供的信息听起来一切正常那就是业务逻辑本身输出少了,不然总得有哪里不一样。如果只有 sink 跌了,那就是 sink > 有问题,比如可能依赖了外部环境或者内部积累错误等等。 > > Best, > tison. > > > Yang Peng <[hidden email]> 于2020年9月30日周三 下午5:26写道: > > > 感谢回复,是的,之前确实怀疑是业务逻辑导致的 > > 但是重启任务之后数据输出恢复了,而且让任务从故障点重新消费也没发现问题,我们这个任务已经跑了几个月了第一次遇到这种问题 > > > > tison <[hidden email]> 于2020年9月30日周三 下午2:33写道: > > > > > Hi Yang, > > > > > > 你的意思是上游输出没变,全链路没有负载升高甚至反而降低,sink 输出变少么? > > > > > > 如果全链路没有异常也没有负载升高、流量阻塞,那感觉就是业务逻辑的实际结果,可以看看输入数据的内容有没有变化。 > > > > > > Best, > > > tison. > > > > > > > > > Yang Peng <[hidden email]> 于2020年9月30日周三 上午10:29写道: > > > > > > > 感谢回复,我们看了consumer的lag很小 > > > > 而且监控显示数据流入量也没明显变化但是感觉这部分数据只是offset被更新了但是数据没有消费到,这个问题之前没有遇到过 这是突发发现的 > > > > 而且任务重启了没法jstack判断了 > > > > > > > > hailongwang <[hidden email]> 于2020年9月29日周二 下午10:35写道: > > > > > > > > > > > > > > > > > > > > > > > > 不过也比较奇怪,Source 数据的 format的话,应该不会使得 CPU 降低,这期间 Iowait 高吗 > > > > > 也可以 jstack 采下堆栈看下,GC等看下。 > > > > > 至于 Source format 能力的话,可以自己测试下单个线程的QPS多少,然后乘以 Partition个数就是了。 > > > > > Best, > > > > > Hailong Wang > > > > > 在 2020-09-29 20:06:50,"Yang Peng" <[hidden email]> 写道: > > > > > > > > > > > > > > > > > > > > >感谢回复,我重启完任务之后消费恢复了,我查看了我们的监控(监控kafkamanager上groupid消费速度)发现消费速度并没有下降,目前分区是90 > > > > > >flinkkafkaconsumer消费的并行度也是90 > > 应该不是分区的问题,至于2这个source序列化耗时严重这个有什么方式可以查看吗? > > > > > > > > > > > >hailongwang <[hidden email]> 于2020年9月29日周二 下午8:59写道: > > > > > > > > > > > >> > > > > > >> > > > > > >> > > > > > >> Hi Yang Peng: > > > > > >> 根据你的描述,可以猜测瓶颈是在 Source 上,有可能以下情况: > > > > > >> 1. Kafka 集群和Flink 集群之间的带宽被其它打满了。 > > > > > >> 2. Source 的序列化耗时严重,导致拉取变慢。 > > > > > >> 可以尝试着扩kafka 分区,加大Source并发看下。 > > > > > >> Best, > > > > > >> Hailong Wang > > > > > >> > > > > > >> 在 2020-09-29 19:44:44,"Yang Peng" <[hidden email]> > 写道: > > > > > >> >请教大家一个问题,flink实时任务消费kafka写入到kafka,Flink版本是1.9.1 线上kafka集群为1.1.1 > > > > > >> >kafka集群为容器化集群部署在K8s上,任务运行了很久 今天突然发现任务的数据产出降低了很多,发现cp 没有问题 > > > > > >> >kafka消费没有积压,也没有反压, > > > > > 也没有任何异常日志,kafka集群也没有异常,flink集群也没有异常,但是发现监控上tm的cpu负载也降低了 > > > > > >> >tm上网卡流量也降低了,除此之外没有其他异常信息,大家又遇到这种情况的吗、 > > > > > >> > > > > > > > > > > > > > > > |
Free forum by Nabble | Edit this page |