Flink程序长期运行后报错退出 PartitionRequestQueue - Encountered error while consuming partitions

classic Classic list List threaded Threaded
2 messages Options
Reply | Threaded
Open this post in threaded view
|

Flink程序长期运行后报错退出 PartitionRequestQueue - Encountered error while consuming partitions

罗学焕/予之
大家好:
Flink应用,如以100笔/s的交易量向kafka写入数据(数据量不大),Flink程序接受并处理数据,涉及到 20个左右的 流表 Join 。和大量的异步操作读取hbase 维表。
运行1-2小时后,Flink应用停止运行并报错,(报错关键堆栈如下,省略部分为flink.shaded.netty部分的堆栈)
观察过内存未溢出,网络负载也不高。
不知道是啥原因,大家能帮忙看下吗?

主要报错:
ERROR org.apache.flink.runtime.io.network.netty.PartitionRequestQueue - Encountered error while consuming partitions
java.io.IOException: Connection reset by peer
...
...
org.apache.flink.runtime.io.network.netty.PartitionRequestQueue.writeAndFlushNextMessageIfPossible(PartitionRequestQueue.java:264)
org.apache.flink.runtime.io.network.netty.PartitionRequestQueue.enqueueAvailableReader(PartitionRequestQueue.java:116)
org.apache.flink.runtime.io.network.netty.PartitionRequestQueue.userEnentTriggered(PartitionRequestQueue.java:176)
...
...
...
...

Reply | Threaded
Open this post in threaded view
|

Re: Flink程序长期运行后报错退出 PartitionRequestQueue - Encountered error while consuming partitions

Biao Liu
你好,"Connection reset by peer" 是网络 TCP 层的异常,见[1]
建议查一下该 task 的下游消费者 task

1.
https://stackoverflow.com/questions/1434451/what-does-connection-reset-by-peer-mean

罗学焕/予之 <[hidden email]> 于2019年6月18日周二 下午5:08写道:

> 大家好:
> Flink应用,如以100笔/s的交易量向kafka写入数据(数据量不大),Flink程序接受并处理数据,涉及到 20个左右的 流表 Join
> 。和大量的异步操作读取hbase 维表。
> 运行1-2小时后,Flink应用停止运行并报错,(报错关键堆栈如下,省略部分为flink.shaded.netty部分的堆栈)
> 观察过内存未溢出,网络负载也不高。
> 不知道是啥原因,大家能帮忙看下吗?
>
> 主要报错:
> ERROR org.apache.flink.runtime.io.network.netty.PartitionRequestQueue -
> Encountered error while consuming partitions
> java.io.IOException: Connection reset by peer
> ...
> ...
> org.apache.flink.runtime.io
> .network.netty.PartitionRequestQueue.writeAndFlushNextMessageIfPossible(PartitionRequestQueue.java:264)
> org.apache.flink.runtime.io
> .network.netty.PartitionRequestQueue.enqueueAvailableReader(PartitionRequestQueue.java:116)
> org.apache.flink.runtime.io
> .network.netty.PartitionRequestQueue.userEnentTriggered(PartitionRequestQueue.java:176)
> ...
> ...
> ...
> ...
>
>