Task Container 被Kill, Managed memory使用情况查看

classic Classic list List threaded Threaded
2 messages Options
Reply | Threaded
Open this post in threaded view
|

Task Container 被Kill, Managed memory使用情况查看

Jason Lee


各位社区的伙伴大家好


目前我们在使用Flink SQL 开发任务过程中遇到一个问题,有比较大状态的任务在运行一段时间后Task Container会由于使用申请内存过多被Yarn集群Kill掉。


针对这个问题我们任务可能是在Checkpoint时候状态过大引起的,因此我们调整了State ttl,也是增量Checkpoint,之后还是会出现类似情况,我们只能通过增加并发和内存来保证任务运行,但是这回造成了很大的资源浪费,因为平时查看任务的堆内存使用并不多,所以我们在考虑是不是Managed memory不足导致的,因为Managed memory 负责RocksDB, 我们想确定一下是不是Managed memory不足导致的任务异常。


但是现在通过Flink Web UI界面查看不到Managed memory的使用情况,所以请教一下社区小伙伴有没有好的方式查看Managed memory的使用情况,或者有没有遇到类Tm container 被kill的情况有没有好的解决方法,感谢大家,希望一起交流


Best,
Jason
| |
Jason Lee1781
|
|
[hidden email]
|
签名由网易邮箱大师定制

Reply | Threaded
Open this post in threaded view
|

Re: Task Container 被Kill, Managed memory使用情况查看

LakeShen
Hi Jason,

可以把 rocksdb statebackend 相关监控指标开启,然后结合指标看看。
具体参考:
https://ci.apache.org/projects/flink/flink-docs-release-1.10/ops/config.html#rocksdb-native-metrics
.

Best,
LakeShen

Jason Lee <[hidden email]> 于2021年6月11日周五 上午11:19写道:

>
>
> 各位社区的伙伴大家好
>
>
> 目前我们在使用Flink SQL 开发任务过程中遇到一个问题,有比较大状态的任务在运行一段时间后Task
> Container会由于使用申请内存过多被Yarn集群Kill掉。
>
>
> 针对这个问题我们任务可能是在Checkpoint时候状态过大引起的,因此我们调整了State
> ttl,也是增量Checkpoint,之后还是会出现类似情况,我们只能通过增加并发和内存来保证任务运行,但是这回造成了很大的资源浪费,因为平时查看任务的堆内存使用并不多,所以我们在考虑是不是Managed
> memory不足导致的,因为Managed memory 负责RocksDB, 我们想确定一下是不是Managed memory不足导致的任务异常。
>
>
> 但是现在通过Flink Web UI界面查看不到Managed memory的使用情况,所以请教一下社区小伙伴有没有好的方式查看Managed
> memory的使用情况,或者有没有遇到类Tm container 被kill的情况有没有好的解决方法,感谢大家,希望一起交流
>
>
> Best,
> Jason
> | |
> Jason Lee1781
> |
> |
> [hidden email]
> |
> 签名由网易邮箱大师定制
>
>