关于flink rocksdb 增量checkpoint的问题

classic Classic list List threaded Threaded
3 messages Options
Reply | Threaded
Open this post in threaded view
|

关于flink rocksdb 增量checkpoint的问题

tangjunliang@huitongjy.com
嗨 您好 我们现在在使用flink1.7.2 在使用过程当中遇到个疑惑 我们使用的rocksdb 增量做checkpoint job在yarn上运行 如果使用yan-cluster这种方式运行 cp从触发到完成的时间会越来越长 如果使用yarn-session这种方式 触发到完成时间都是均匀的 不能理解 这两种方式是有什么区别麽 望解答 谢谢



[hidden email]
Reply | Threaded
Open this post in threaded view
|

Re: 关于flink rocksdb 增量checkpoint的问题

Congxian Qiu
你好,
首先 rocksdb 增量 checkpoint 的耗时和具体怎么部署的是没有关系的。

关于你的这个问题,需要一些更详细的信息才能做判断

- yarn-cluster 模式下和 yarn-session 模式下的代码,配置和环境是一样的吗?
- yarn-cluster 模式下时间越来越长,是同步时间变长了,还是异步时间变长了呢?
- 另外每次 checkpoint 的 state size 是什么趋势呢?

Best,
Congxian


[hidden email] <[hidden email]> 于2019年7月5日周五
下午2:26写道:

> 嗨 您好 我们现在在使用flink1.7.2 在使用过程当中遇到个疑惑 我们使用的rocksdb 增量做checkpoint job在yarn上运行
> 如果使用yan-cluster这种方式运行 cp从触发到完成的时间会越来越长 如果使用yarn-session这种方式 触发到完成时间都是均匀的
> 不能理解 这两种方式是有什么区别麽 望解答 谢谢
>
>
>
> [hidden email]
>
Reply | Threaded
Open this post in threaded view
|

Re: Re: 关于flink rocksdb 增量checkpoint的问题

Congxian Qiu
你好
从所给的信息暂时不确定是啥问题,你需要分析下是同步耗时比较多(对于 state size 差不多的情况下,同步阶段过长可以看看 barrier
对齐是否有问题),还是异步阶段耗时比较多(可以看看磁盘和网络相关的 metric 是否有抖动,或者瓶颈)

Best,
Congxian


[hidden email] <[hidden email]> 于2019年7月5日周五
下午2:39写道:

> 你好:
> 感谢回复。
> 情况是这样的:
> 1、yarn-cluster 模式下和 yarn-session
> 模式下的代码是一样的,配置是一样的,yarn-session分配的资源比yarn-cluster的少
> 2、都是使用的异步
> 3、两种方式下,state size都是越来越大(从我们测试的情况来看,从最初的任务启动state
> size在20M左右,然后随着运行会达到300M以上)
>
> ------------------------------
> [hidden email]
>
>
> *发件人:* Congxian Qiu <[hidden email]>
> *发送时间:* 2019-07-05 14:32
> *收件人:* user-zh <[hidden email]>; tangjunliang
> <[hidden email]>
> *主题:* Re: 关于flink rocksdb 增量checkpoint的问题
> 你好,
> 首先 rocksdb 增量 checkpoint 的耗时和具体怎么部署的是没有关系的。
>
> 关于你的这个问题,需要一些更详细的信息才能做判断
>
> - yarn-cluster 模式下和 yarn-session 模式下的代码,配置和环境是一样的吗?
> - yarn-cluster 模式下时间越来越长,是同步时间变长了,还是异步时间变长了呢?
> - 另外每次 checkpoint 的 state size 是什么趋势呢?
>
> Best,
> Congxian
>
>
> [hidden email] <[hidden email]> 于2019年7月5日周五
> 下午2:26写道:
>
>> 嗨 您好 我们现在在使用flink1.7.2 在使用过程当中遇到个疑惑 我们使用的rocksdb 增量做checkpoint
>> job在yarn上运行 如果使用yan-cluster这种方式运行 cp从触发到完成的时间会越来越长 如果使用yarn-session这种方式
>> 触发到完成时间都是均匀的 不能理解 这两种方式是有什么区别麽 望解答 谢谢
>>
>>
>>
>> [hidden email]
>>
>