感谢您的回复,checkpoint使用的rocksDB,现在查看GC日志得到以下信息,堆内存使用正常,线程数使用在500左右,线程回收,但是线程占用的内存好像并没有回收掉。
在 2019/8/27 下午5:02,“Xintong Song”<
[hidden email]> 写入:
你用的是heap state backend吗?可以看下checkpoint
size是否持续在增大,如果是的话很可能就是state增大导致的。作业运行后,随着处理的数据越来越多,state的key数量也会越来越多,大小随之增大。解决方案要么是改用RocksDB,要么是把tm内存配大为state增大留出富裕。
另外,如果checkpoint size持续增长没有趋于平缓的趋势,那么也可能state的使用有问题。
如果观察到不是state的问题,那么可能需要dump下tm的内存,看看是否哪里有内存泄露的情况。
Thank you~
Xintong Song
On Mon, Aug 26, 2019 at 10:46 AM 张坤 <
[hidden email]> wrote:
> Hi:
>
> 最近在使用Flink(1.7.2)提交任务到yarn(per
> job),任务在yarn上运行几个小时就会被kill掉,观察到任务的内存一直在增长,任务提交时有内存参数设置,任务逻辑为kafka数据简单处理后,注册成table,使用窗口聚合,
>
> 大家有没有遇到类似的问题,原因是什么?怎么解决或者优化?谢谢!
>
>