回复: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大

classic Classic list List threaded Threaded
11 messages Options
op
Reply | Threaded
Open this post in threaded view
|

回复: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大

op
    你好,我使用的是FsStateBackend 状态后端,调到5分钟也是一样,看了下checkpoint花费的时间都在300ms左右,我们的业务数据量每天基本一样,
   设置空闲状态清理时间为1440minute,按道理运行一天以后状态大小会趋于平稳,但是目前运行了5天,
   观察到的checkpoint shared 目录大小一直在增加,也确认过group by的key只会在处理当天出现,就是说这天的状态当天过后就会处于空闲状态,
   运行5天能满足清理条件




------------------ 原始邮件 ------------------
发件人:                                                                                                                        "user-zh"                                                                                    <[hidden email]&gt;;
发送时间:&nbsp;2020年8月3日(星期一) 下午5:50
收件人:&nbsp;"user-zh"<[hidden email]&gt;;

主题:&nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大



Hi
&nbsp;&nbsp; 能否把 checkpoint 的 interval 调长一点再看看是否稳定呢?从 shared 目录的数据量看,有增长,后续基本持平。现在
Checkpointed Data Size 是增量的大小[1],而不是整个 checkpoint 的数据量的大小,如果 checkpoint
之间,数据改动很多的话,这个值会变大

[1]
https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7
Best,
Congxian


op <[hidden email]&gt; 于2020年8月3日周一 下午2:18写道:

&gt; &amp;nbsp; &amp;nbsp;
&gt; 同问,我也遇到了状态越来越大的情况,使用的是1.11.0版本,用hdfs保存checkpoint,checkpoint间隔3分钟,
&gt; 逻辑是按照 事件day 和 id 进行groupby
&gt; 然后有十几个聚合指标,运行了7天左右,状态一直在增加,设置了失效时间,然后watermark看着也正常在走
&gt; tConfig.setIdleStateRetentionTime(Time.minutes(1440),
&gt; Time.minutes(1440+10))
&gt;
&gt;
&gt;
&gt;
&gt; ------------------&amp;nbsp;原始邮件&amp;nbsp;------------------
&gt; 发件人:
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; &nbsp; "user-zh"
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; &nbsp; <
&gt; [hidden email]&amp;gt;;
&gt; 发送时间:&amp;nbsp;2020年8月3日(星期一) 中午1:50
&gt; 收件人:&amp;nbsp;"user-zh"<[hidden email]&amp;gt;;
&gt;
&gt; 主题:&amp;nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大
&gt;
&gt;
&gt;
&gt; hi,您好:
&gt; 我改回增量模式重新收集了一些数据:
&gt; 1、数据处理速度:3000条每秒,是测试环境的,压力比较稳定,几乎没有波动
&gt; 2、checkpoint是interval设置的是5秒
&gt; 3、目前这个作业是每分钟一个窗口
&gt; 4、并行度设置的1,使用on-yarn模式
&gt;
&gt; 刚启动的时候,如下:
&gt; <http://apache-flink.147419.n8.nabble.com/file/t793/6.png&amp;gt;
&gt;
&gt; 18分钟后,如下:
&gt; <http://apache-flink.147419.n8.nabble.com/file/t793/9.png&amp;gt;
&gt;
&gt; checkpoints设置:
&gt; <http://apache-flink.147419.n8.nabble.com/file/t793/conf.png&amp;gt;
&gt;
&gt; hdfs上面大小:
&gt; <http://apache-flink.147419.n8.nabble.com/file/t793/hdfs.png&amp;gt;
&gt;
&gt; 页面上看到的大小:
&gt; <http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;gt;
&gt;
&gt;
&gt; Congxian Qiu wrote
&gt; &amp;gt; Hi&amp;nbsp;&amp;nbsp; 鱼子酱
&gt; &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; 能否把在使用增量 checkpoint 的模式下,截图看一下 checkpoint
&gt; size 的走势呢?另外可以的话,也麻烦你在每次
&gt; &amp;gt; checkpoint 做完之后,到 hdfs 上 ls 一下 checkpoint 目录的大小。
&gt; &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; 另外有一个问题还需要回答一下,你的处理速度大概是多少,state 的更新频率能否评估一下呢?
&gt; &amp;gt;
&gt; &amp;gt; Best,
&gt; &amp;gt; Congxian
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt; 鱼子酱 <
&gt;
&gt; &amp;gt; 384939718@
&gt;
&gt; &amp;gt;&amp;gt; 于2020年7月30日周四 上午10:43写道:
&gt; &amp;gt;
&gt; &amp;gt;&amp;gt; 感谢!
&gt; &amp;gt;&amp;gt;
&gt; &amp;gt;&amp;gt; flink1.11.1版本里面,我尝试了下面两种backend,目前运行了20多个小时,
&gt; &amp;gt;&amp;gt; 能够看到状态的大小在一个区间内波动,没有发现一直增长的情况了。
&gt; &amp;gt;&amp;gt; StateBackend backend =new
&gt; &amp;gt;&amp;gt;
&gt; &amp;gt;&amp;gt;
&gt; RocksDBStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false);
&gt; &amp;gt;&amp;gt; StateBackend backend =new
&gt; &amp;gt;&amp;gt;
&gt; &amp;gt;&amp;gt;
&gt; FsStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false);
&gt; &amp;gt;&amp;gt;
&gt; &amp;gt;&amp;gt;
&gt; &amp;gt;&amp;gt; 这样看,有可能是RocksDBStateBackend增量模式这边可能存在一些问题。
&gt; &amp;gt;&amp;gt; RocksDBStateBackend:
&gt; &amp;gt;&amp;gt; &amp;amp;lt;
&gt; http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;gt;
&gt; &amp;gt;&amp;gt; FsStateBackend:
&gt; &amp;gt;&amp;gt; &amp;amp;lt;
&gt; http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;gt;
&gt; &amp;gt;&amp;gt;
&gt; &amp;gt;&amp;gt;
&gt; &amp;gt;&amp;gt;
&gt; &amp;gt;&amp;gt;
&gt; &amp;gt;&amp;gt; --
&gt; &amp;gt;&amp;gt; Sent from: http://apache-flink.147419.n8.nabble.com/
&gt; &amp;gt;&amp;gt;
&gt;
&gt;
&gt;
&gt;
&gt;
&gt; --
&gt; Sent from: http://apache-flink.147419.n8.nabble.com/
Reply | Threaded
Open this post in threaded view
|

Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大

Congxian Qiu
Hi op
   这个情况比较奇怪。我想确认下:
   1)你所有作业都遇到 checkpoint size 不断变大的情况,还是只有这个类型的作业遇到这个问题呢?
   2)是否尝试过 RocksDBStateBackend 呢(全量和增量)?情况如何呢

   另外,你 TTL 其他的配置是怎么设置的呢?

从原理上来说,checkpoint 就是 state 的一个快照,如果 checkpoint 越来越大,那么就是 state 越来越多。
Best,
Congxian


op <[hidden email]> 于2020年8月5日周三 下午2:46写道:

> &nbsp; &nbsp;
> 你好,我使用的是FsStateBackend&nbsp;状态后端,调到5分钟也是一样,看了下checkpoint花费的时间都在300ms左右,我们的业务数据量每天基本一样,
> &nbsp; &nbsp;设置空闲状态清理时间为1440minute,按道理运行一天以后状态大小会趋于平稳,但是目前运行了5天,
> &nbsp; &nbsp;观察到的checkpoint shared 目录大小一直在增加,也确认过group
> by的key只会在处理当天出现,就是说这天的状态当天过后就会处于空闲状态,
> &nbsp; &nbsp;运行5天能满足清理条件
>
>
>
>
> ------------------ 原始邮件 ------------------
> 发件人:
>                                                   "user-zh"
>                                                                     <
> [hidden email]&gt;;
> 发送时间:&nbsp;2020年8月3日(星期一) 下午5:50
> 收件人:&nbsp;"user-zh"<[hidden email]&gt;;
>
> 主题:&nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大
>
>
>
> Hi
> &nbsp;&nbsp; 能否把 checkpoint 的 interval 调长一点再看看是否稳定呢?从 shared
> 目录的数据量看,有增长,后续基本持平。现在
> Checkpointed Data Size 是增量的大小[1],而不是整个 checkpoint 的数据量的大小,如果 checkpoint
> 之间,数据改动很多的话,这个值会变大
>
> [1]
>
> https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7
> Best,
> Congxian
>
>
> op <[hidden email]&gt; 于2020年8月3日周一 下午2:18写道:
>
> &gt; &amp;nbsp; &amp;nbsp;
> &gt; 同问,我也遇到了状态越来越大的情况,使用的是1.11.0版本,用hdfs保存checkpoint,checkpoint间隔3分钟,
> &gt; 逻辑是按照 事件day 和 id 进行groupby
> &gt; 然后有十几个聚合指标,运行了7天左右,状态一直在增加,设置了失效时间,然后watermark看着也正常在走
> &gt; tConfig.setIdleStateRetentionTime(Time.minutes(1440),
> &gt; Time.minutes(1440+10))
> &gt;
> &gt;
> &gt;
> &gt;
> &gt; ------------------&amp;nbsp;原始邮件&amp;nbsp;------------------
> &gt; 发件人:
> &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
> &nbsp; "user-zh"
> &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
> &nbsp; <
> &gt; [hidden email]&amp;gt;;
> &gt; 发送时间:&amp;nbsp;2020年8月3日(星期一) 中午1:50
> &gt; 收件人:&amp;nbsp;"user-zh"<[hidden email]&amp;gt;;
> &gt;
> &gt; 主题:&amp;nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大
> &gt;
> &gt;
> &gt;
> &gt; hi,您好:
> &gt; 我改回增量模式重新收集了一些数据:
> &gt; 1、数据处理速度:3000条每秒,是测试环境的,压力比较稳定,几乎没有波动
> &gt; 2、checkpoint是interval设置的是5秒
> &gt; 3、目前这个作业是每分钟一个窗口
> &gt; 4、并行度设置的1,使用on-yarn模式
> &gt;
> &gt; 刚启动的时候,如下:
> &gt; <http://apache-flink.147419.n8.nabble.com/file/t793/6.png&amp;gt;
> &gt;
> &gt; 18分钟后,如下:
> &gt; <http://apache-flink.147419.n8.nabble.com/file/t793/9.png&amp;gt;
> &gt;
> &gt; checkpoints设置:
> &gt; <http://apache-flink.147419.n8.nabble.com/file/t793/conf.png&amp;gt;
> &gt;
> &gt; hdfs上面大小:
> &gt; <http://apache-flink.147419.n8.nabble.com/file/t793/hdfs.png&amp;gt;
> &gt;
> &gt; 页面上看到的大小:
> &gt; <
> http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;gt
> ;
> &gt;
> &gt;
> &gt; Congxian Qiu wrote
> &gt; &amp;gt; Hi&amp;nbsp;&amp;nbsp; 鱼子酱
> &gt; &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; 能否把在使用增量 checkpoint
> 的模式下,截图看一下 checkpoint
> &gt; size 的走势呢?另外可以的话,也麻烦你在每次
> &gt; &amp;gt; checkpoint 做完之后,到 hdfs 上 ls 一下 checkpoint 目录的大小。
> &gt; &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
> 另外有一个问题还需要回答一下,你的处理速度大概是多少,state 的更新频率能否评估一下呢?
> &gt; &amp;gt;
> &gt; &amp;gt; Best,
> &gt; &amp;gt; Congxian
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt; 鱼子酱 <
> &gt;
> &gt; &amp;gt; 384939718@
> &gt;
> &gt; &amp;gt;&amp;gt; 于2020年7月30日周四 上午10:43写道:
> &gt; &amp;gt;
> &gt; &amp;gt;&amp;gt; 感谢!
> &gt; &amp;gt;&amp;gt;
> &gt; &amp;gt;&amp;gt; flink1.11.1版本里面,我尝试了下面两种backend,目前运行了20多个小时,
> &gt; &amp;gt;&amp;gt; 能够看到状态的大小在一个区间内波动,没有发现一直增长的情况了。
> &gt; &amp;gt;&amp;gt; StateBackend backend =new
> &gt; &amp;gt;&amp;gt;
> &gt; &amp;gt;&amp;gt;
> &gt;
> RocksDBStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false);
> &gt; &amp;gt;&amp;gt; StateBackend backend =new
> &gt; &amp;gt;&amp;gt;
> &gt; &amp;gt;&amp;gt;
> &gt;
> FsStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false);
> &gt; &amp;gt;&amp;gt;
> &gt; &amp;gt;&amp;gt;
> &gt; &amp;gt;&amp;gt; 这样看,有可能是RocksDBStateBackend增量模式这边可能存在一些问题。
> &gt; &amp;gt;&amp;gt; RocksDBStateBackend:
> &gt; &amp;gt;&amp;gt; &amp;amp;lt;
> &gt; http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;gt
> ;
> &gt; &amp;gt;&amp;gt; FsStateBackend:
> &gt; &amp;gt;&amp;gt; &amp;amp;lt;
> &gt; http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;gt
> ;
> &gt; &amp;gt;&amp;gt;
> &gt; &amp;gt;&amp;gt;
> &gt; &amp;gt;&amp;gt;
> &gt; &amp;gt;&amp;gt;
> &gt; &amp;gt;&amp;gt; --
> &gt; &amp;gt;&amp;gt; Sent from: http://apache-flink.147419.n8.nabble.com/
> &gt <http://apache-flink.147419.n8.nabble.com/&gt>; &amp;gt;&amp;gt;
> &gt;
> &gt;
> &gt;
> &gt;
> &gt;
> &gt; --
> &gt; Sent from: http://apache-flink.147419.n8.nabble.com/
op
Reply | Threaded
Open this post in threaded view
|

回复: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大

op
你好,ttl配置是
val settings = EnvironmentSettings.newInstance().inStreamingMode().build()
val tableEnv = StreamTableEnvironment.create(bsEnv, settings)
val tConfig = tableEnv.getConfig
tConfig.setIdleStateRetentionTime(Time.minutes(1440), Time.minutes(1450))


&nbsp; &nbsp; 1)目前是有3个任务都是这种情况
&nbsp; &nbsp; 2)目前集群没有RocksDB环境
谢谢
------------------&nbsp;原始邮件&nbsp;------------------
发件人:                                                                                                                        "user-zh"                                                                                    <[hidden email]&gt;;
发送时间:&nbsp;2020年8月5日(星期三) 下午3:30
收件人:&nbsp;"user-zh"<[hidden email]&gt;;

主题:&nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大



Hi op
&nbsp;&nbsp; 这个情况比较奇怪。我想确认下:
&nbsp;&nbsp; 1)你所有作业都遇到 checkpoint size 不断变大的情况,还是只有这个类型的作业遇到这个问题呢?
&nbsp;&nbsp; 2)是否尝试过 RocksDBStateBackend 呢(全量和增量)?情况如何呢

&nbsp;&nbsp; 另外,你 TTL 其他的配置是怎么设置的呢?

从原理上来说,checkpoint 就是 state 的一个快照,如果 checkpoint 越来越大,那么就是 state 越来越多。
Best,
Congxian


op <[hidden email]&gt; 于2020年8月5日周三 下午2:46写道:

&gt; &amp;nbsp; &amp;nbsp;
&gt; 你好,我使用的是FsStateBackend&amp;nbsp;状态后端,调到5分钟也是一样,看了下checkpoint花费的时间都在300ms左右,我们的业务数据量每天基本一样,
&gt; &amp;nbsp; &amp;nbsp;设置空闲状态清理时间为1440minute,按道理运行一天以后状态大小会趋于平稳,但是目前运行了5天,
&gt; &amp;nbsp; &amp;nbsp;观察到的checkpoint shared 目录大小一直在增加,也确认过group
&gt; by的key只会在处理当天出现,就是说这天的状态当天过后就会处于空闲状态,
&gt; &amp;nbsp; &amp;nbsp;运行5天能满足清理条件
&gt;
&gt;
&gt;
&gt;
&gt; ------------------ 原始邮件 ------------------
&gt; 发件人:
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "user-zh"
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <
&gt; [hidden email]&amp;gt;;
&gt; 发送时间:&amp;nbsp;2020年8月3日(星期一) 下午5:50
&gt; 收件人:&amp;nbsp;"user-zh"<[hidden email]&amp;gt;;
&gt;
&gt; 主题:&amp;nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大
&gt;
&gt;
&gt;
&gt; Hi
&gt; &amp;nbsp;&amp;nbsp; 能否把 checkpoint 的 interval 调长一点再看看是否稳定呢?从 shared
&gt; 目录的数据量看,有增长,后续基本持平。现在
&gt; Checkpointed Data Size 是增量的大小[1],而不是整个 checkpoint 的数据量的大小,如果 checkpoint
&gt; 之间,数据改动很多的话,这个值会变大
&gt;
&gt; [1]
&gt;
&gt; https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7
&gt; Best,
&gt; Congxian
&gt;
&gt;
&gt; op <[hidden email]&amp;gt; 于2020年8月3日周一 下午2:18写道:
&gt;
&gt; &amp;gt; &amp;amp;nbsp; &amp;amp;nbsp;
&gt; &amp;gt; 同问,我也遇到了状态越来越大的情况,使用的是1.11.0版本,用hdfs保存checkpoint,checkpoint间隔3分钟,
&gt; &amp;gt; 逻辑是按照 事件day 和 id 进行groupby
&gt; &amp;gt; 然后有十几个聚合指标,运行了7天左右,状态一直在增加,设置了失效时间,然后watermark看着也正常在走
&gt; &amp;gt; tConfig.setIdleStateRetentionTime(Time.minutes(1440),
&gt; &amp;gt; Time.minutes(1440+10))
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt; ------------------&amp;amp;nbsp;原始邮件&amp;amp;nbsp;------------------
&gt; &amp;gt; 发件人:
&gt; &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
&gt; &amp;nbsp; "user-zh"
&gt; &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
&gt; &amp;nbsp; <
&gt; &amp;gt; [hidden email]&amp;amp;gt;;
&gt; &amp;gt; 发送时间:&amp;amp;nbsp;2020年8月3日(星期一) 中午1:50
&gt; &amp;gt; 收件人:&amp;amp;nbsp;"user-zh"<[hidden email]&amp;amp;gt;;
&gt; &amp;gt;
&gt; &amp;gt; 主题:&amp;amp;nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt; hi,您好:
&gt; &amp;gt; 我改回增量模式重新收集了一些数据:
&gt; &amp;gt; 1、数据处理速度:3000条每秒,是测试环境的,压力比较稳定,几乎没有波动
&gt; &amp;gt; 2、checkpoint是interval设置的是5秒
&gt; &amp;gt; 3、目前这个作业是每分钟一个窗口
&gt; &amp;gt; 4、并行度设置的1,使用on-yarn模式
&gt; &amp;gt;
&gt; &amp;gt; 刚启动的时候,如下:
&gt; &amp;gt; <http://apache-flink.147419.n8.nabble.com/file/t793/6.png&amp;amp;gt;
&gt; &amp;gt;
&gt; &amp;gt; 18分钟后,如下:
&gt; &amp;gt; <http://apache-flink.147419.n8.nabble.com/file/t793/9.png&amp;amp;gt;
&gt; &amp;gt;
&gt; &amp;gt; checkpoints设置:
&gt; &amp;gt; <http://apache-flink.147419.n8.nabble.com/file/t793/conf.png&amp;amp;gt;
&gt; &amp;gt;
&gt; &amp;gt; hdfs上面大小:
&gt; &amp;gt; <http://apache-flink.147419.n8.nabble.com/file/t793/hdfs.png&amp;amp;gt;
&gt; &amp;gt;
&gt; &amp;gt; 页面上看到的大小:
&gt; &amp;gt; <
&gt; http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;amp;gt
&gt; ;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt; Congxian Qiu wrote
&gt; &amp;gt; &amp;amp;gt; Hi&amp;amp;nbsp;&amp;amp;nbsp; 鱼子酱
&gt; &amp;gt; &amp;amp;gt;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp; 能否把在使用增量 checkpoint
&gt; 的模式下,截图看一下 checkpoint
&gt; &amp;gt; size 的走势呢?另外可以的话,也麻烦你在每次
&gt; &amp;gt; &amp;amp;gt; checkpoint 做完之后,到 hdfs 上 ls 一下 checkpoint 目录的大小。
&gt; &amp;gt; &amp;amp;gt;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;
&gt; 另外有一个问题还需要回答一下,你的处理速度大概是多少,state 的更新频率能否评估一下呢?
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; Best,
&gt; &amp;gt; &amp;amp;gt; Congxian
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt; 鱼子酱 <
&gt; &amp;gt;
&gt; &amp;gt; &amp;amp;gt; 384939718@
&gt; &amp;gt;
&gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; 于2020年7月30日周四 上午10:43写道:
&gt; &amp;gt; &amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; 感谢!
&gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; flink1.11.1版本里面,我尝试了下面两种backend,目前运行了20多个小时,
&gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; 能够看到状态的大小在一个区间内波动,没有发现一直增长的情况了。
&gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; StateBackend backend =new
&gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
&gt; &amp;gt;
&gt; RocksDBStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false);
&gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; StateBackend backend =new
&gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
&gt; &amp;gt;
&gt; FsStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false);
&gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; 这样看,有可能是RocksDBStateBackend增量模式这边可能存在一些问题。
&gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; RocksDBStateBackend:
&gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; &amp;amp;amp;lt;
&gt; &amp;gt; http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;amp;gt
&gt; ;
&gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; FsStateBackend:
&gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; &amp;amp;amp;lt;
&gt; &amp;gt; http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;amp;gt
&gt; ;
&gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
&gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; --
&gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; Sent from: http://apache-flink.147419.n8.nabble.com/
&gt; &amp;gt <http://apache-flink.147419.n8.nabble.com/&amp;gt&gt;; &amp;amp;gt;&amp;amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt;
&gt; &amp;gt; --
&gt; &amp;gt; Sent from: http://apache-flink.147419.n8.nabble.com/
Reply | Threaded
Open this post in threaded view
|

Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大

Congxian Qiu
Hi
  RocksDB StateBackend 只需要在 flink-conf 中进行一下配置就行了[1].

  另外从你前面两份邮件看,我有些信息比较疑惑,你能否贴一下现在使用的 flink-conf,以及 checkpoint UI 的截图,以及 HDFS
上 checkpoint 目录的截图

[1]
https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E8%AE%BE%E7%BD%AE-state-backend

Best,
Congxian


op <[hidden email]> 于2020年8月5日周三 下午4:03写道:

> 你好,ttl配置是
> val settings = EnvironmentSettings.newInstance().inStreamingMode().build()
> val tableEnv = StreamTableEnvironment.create(bsEnv, settings)
> val tConfig = tableEnv.getConfig
> tConfig.setIdleStateRetentionTime(Time.minutes(1440), Time.minutes(1450))
>
>
> &nbsp; &nbsp; 1)目前是有3个任务都是这种情况
> &nbsp; &nbsp; 2)目前集群没有RocksDB环境
> 谢谢
> ------------------&nbsp;原始邮件&nbsp;------------------
> 发件人:
>                                                   "user-zh"
>                                                                     <
> [hidden email]&gt;;
> 发送时间:&nbsp;2020年8月5日(星期三) 下午3:30
> 收件人:&nbsp;"user-zh"<[hidden email]&gt;;
>
> 主题:&nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大
>
>
>
> Hi op
> &nbsp;&nbsp; 这个情况比较奇怪。我想确认下:
> &nbsp;&nbsp; 1)你所有作业都遇到 checkpoint size 不断变大的情况,还是只有这个类型的作业遇到这个问题呢?
> &nbsp;&nbsp; 2)是否尝试过 RocksDBStateBackend 呢(全量和增量)?情况如何呢
>
> &nbsp;&nbsp; 另外,你 TTL 其他的配置是怎么设置的呢?
>
> 从原理上来说,checkpoint 就是 state 的一个快照,如果 checkpoint 越来越大,那么就是 state 越来越多。
> Best,
> Congxian
>
>
> op <[hidden email]&gt; 于2020年8月5日周三 下午2:46写道:
>
> &gt; &amp;nbsp; &amp;nbsp;
> &gt;
> 你好,我使用的是FsStateBackend&amp;nbsp;状态后端,调到5分钟也是一样,看了下checkpoint花费的时间都在300ms左右,我们的业务数据量每天基本一样,
> &gt; &amp;nbsp;
> &amp;nbsp;设置空闲状态清理时间为1440minute,按道理运行一天以后状态大小会趋于平稳,但是目前运行了5天,
> &gt; &amp;nbsp; &amp;nbsp;观察到的checkpoint shared 目录大小一直在增加,也确认过group
> &gt; by的key只会在处理当天出现,就是说这天的状态当天过后就会处于空闲状态,
> &gt; &amp;nbsp; &amp;nbsp;运行5天能满足清理条件
> &gt;
> &gt;
> &gt;
> &gt;
> &gt; ------------------ 原始邮件 ------------------
> &gt; 发件人:
> &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
> "user-zh"
> &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
> <
> &gt; [hidden email]&amp;gt;;
> &gt; 发送时间:&amp;nbsp;2020年8月3日(星期一) 下午5:50
> &gt; 收件人:&amp;nbsp;"user-zh"<[hidden email]&amp;gt;;
> &gt;
> &gt; 主题:&amp;nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大
> &gt;
> &gt;
> &gt;
> &gt; Hi
> &gt; &amp;nbsp;&amp;nbsp; 能否把 checkpoint 的 interval 调长一点再看看是否稳定呢?从 shared
> &gt; 目录的数据量看,有增长,后续基本持平。现在
> &gt; Checkpointed Data Size 是增量的大小[1],而不是整个 checkpoint 的数据量的大小,如果
> checkpoint
> &gt; 之间,数据改动很多的话,这个值会变大
> &gt;
> &gt; [1]
> &gt;
> &gt;
> https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7
> &gt
> <https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7&gt>;
> Best,
> &gt; Congxian
> &gt;
> &gt;
> &gt; op <[hidden email]&amp;gt; 于2020年8月3日周一 下午2:18写道:
> &gt;
> &gt; &amp;gt; &amp;amp;nbsp; &amp;amp;nbsp;
> &gt; &amp;gt;
> 同问,我也遇到了状态越来越大的情况,使用的是1.11.0版本,用hdfs保存checkpoint,checkpoint间隔3分钟,
> &gt; &amp;gt; 逻辑是按照 事件day 和 id 进行groupby
> &gt; &amp;gt; 然后有十几个聚合指标,运行了7天左右,状态一直在增加,设置了失效时间,然后watermark看着也正常在走
> &gt; &amp;gt; tConfig.setIdleStateRetentionTime(Time.minutes(1440),
> &gt; &amp;gt; Time.minutes(1440+10))
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt;
> ------------------&amp;amp;nbsp;原始邮件&amp;amp;nbsp;------------------
> &gt; &amp;gt; 发件人:
> &gt;
> &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
> &gt; &amp;nbsp; "user-zh"
> &gt;
> &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
> &gt; &amp;nbsp; <
> &gt; &amp;gt; [hidden email]&amp;amp;gt;;
> &gt; &amp;gt; 发送时间:&amp;amp;nbsp;2020年8月3日(星期一) 中午1:50
> &gt; &amp;gt; 收件人:&amp;amp;nbsp;"user-zh"<[hidden email]
> &amp;amp;gt;;
> &gt; &amp;gt;
> &gt; &amp;gt; 主题:&amp;amp;nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口
> 操作后 状态越来越大
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt; hi,您好:
> &gt; &amp;gt; 我改回增量模式重新收集了一些数据:
> &gt; &amp;gt; 1、数据处理速度:3000条每秒,是测试环境的,压力比较稳定,几乎没有波动
> &gt; &amp;gt; 2、checkpoint是interval设置的是5秒
> &gt; &amp;gt; 3、目前这个作业是每分钟一个窗口
> &gt; &amp;gt; 4、并行度设置的1,使用on-yarn模式
> &gt; &amp;gt;
> &gt; &amp;gt; 刚启动的时候,如下:
> &gt; &amp;gt; <
> http://apache-flink.147419.n8.nabble.com/file/t793/6.png&amp;amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt; 18分钟后,如下:
> &gt; &amp;gt; <
> http://apache-flink.147419.n8.nabble.com/file/t793/9.png&amp;amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt; checkpoints设置:
> &gt; &amp;gt; <
> http://apache-flink.147419.n8.nabble.com/file/t793/conf.png&amp;amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt; hdfs上面大小:
> &gt; &amp;gt; <
> http://apache-flink.147419.n8.nabble.com/file/t793/hdfs.png&amp;amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt; 页面上看到的大小:
> &gt; &amp;gt; <
> &gt;
> http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;amp;gt
> &gt
> <http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;amp;gt&gt>;
> ;
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt; Congxian Qiu wrote
> &gt; &amp;gt; &amp;amp;gt; Hi&amp;amp;nbsp;&amp;amp;nbsp; 鱼子酱
> &gt; &amp;gt;
> &amp;amp;gt;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;
> 能否把在使用增量 checkpoint
> &gt; 的模式下,截图看一下 checkpoint
> &gt; &amp;gt; size 的走势呢?另外可以的话,也麻烦你在每次
> &gt; &amp;gt; &amp;amp;gt; checkpoint 做完之后,到 hdfs 上 ls 一下 checkpoint 目录的大小。
> &gt; &amp;gt;
> &amp;amp;gt;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;
> &gt; 另外有一个问题还需要回答一下,你的处理速度大概是多少,state 的更新频率能否评估一下呢?
> &gt; &amp;gt; &amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt; Best,
> &gt; &amp;gt; &amp;amp;gt; Congxian
> &gt; &amp;gt; &amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt; 鱼子酱 <
> &gt; &amp;gt;
> &gt; &amp;gt; &amp;amp;gt; 384939718@
> &gt; &amp;gt;
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; 于2020年7月30日周四 上午10:43写道:
> &gt; &amp;gt; &amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; 感谢!
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> flink1.11.1版本里面,我尝试了下面两种backend,目前运行了20多个小时,
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; 能够看到状态的大小在一个区间内波动,没有发现一直增长的情况了。
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; StateBackend backend =new
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> &gt; &amp;gt;
> &gt;
> RocksDBStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false);
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; StateBackend backend =new
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> &gt; &amp;gt;
> &gt;
> FsStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false);
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> 这样看,有可能是RocksDBStateBackend增量模式这边可能存在一些问题。
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; RocksDBStateBackend:
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; &amp;amp;amp;lt;
> &gt; &amp;gt;
> http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;amp;gt
> &gt
> <http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;amp;gt&gt>;
> ;
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; FsStateBackend:
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; &amp;amp;amp;lt;
> &gt; &amp;gt;
> http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;amp;gt
> &gt
> <http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;amp;gt&gt>;
> ;
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; --
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; Sent from:
> http://apache-flink.147419.n8.nabble.com/
> &gt <http://apache-flink.147419.n8.nabble.com/&gt>; &amp;gt <
> http://apache-flink.147419.n8.nabble.com/&amp;gt&gt;;
> &amp;amp;gt;&amp;amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt; --
> &gt; &amp;gt; Sent from: http://apache-flink.147419.n8.nabble.com/
op
Reply | Threaded
Open this post in threaded view
|

回复: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大

op
   感谢 ,  截图和配置在附件里面
  我试试配置  RocksDB StateBackend
 

------------------ 原始邮件 ------------------
发件人: "user-zh" <[hidden email]>;
发送时间: 2020年8月5日(星期三) 下午5:43
收件人: "user-zh"<[hidden email]>;
主题: Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大

Hi
  RocksDB StateBackend 只需要在 flink-conf 中进行一下配置就行了[1].

  另外从你前面两份邮件看,我有些信息比较疑惑,你能否贴一下现在使用的 flink-conf,以及 checkpoint UI 的截图,以及 HDFS
上 checkpoint 目录的截图

[1]
https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E8%AE%BE%E7%BD%AE-state-backend

Best,
Congxian


op <[hidden email]> 于2020年8月5日周三 下午4:03写道:

> 你好,ttl配置是
> val settings = EnvironmentSettings.newInstance().inStreamingMode().build()
> val tableEnv = StreamTableEnvironment.create(bsEnv, settings)
> val tConfig = tableEnv.getConfig
> tConfig.setIdleStateRetentionTime(Time.minutes(1440), Time.minutes(1450))
>
>
> &nbsp; &nbsp; 1)目前是有3个任务都是这种情况
> &nbsp; &nbsp; 2)目前集群没有RocksDB环境
> 谢谢
> ------------------&nbsp;原始邮件&nbsp;------------------
> 发件人:
>                                                   "user-zh"
>                                                                     <
> [hidden email]&gt;;
> 发送时间:&nbsp;2020年8月5日(星期三) 下午3:30
> 收件人:&nbsp;"user-zh"<[hidden email]&gt;;
>
> 主题:&nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大
>
>
>
> Hi op
> &nbsp;&nbsp; 这个情况比较奇怪。我想确认下:
> &nbsp;&nbsp; 1)你所有作业都遇到 checkpoint size 不断变大的情况,还是只有这个类型的作业遇到这个问题呢?
> &nbsp;&nbsp; 2)是否尝试过 RocksDBStateBackend 呢(全量和增量)?情况如何呢
>
> &nbsp;&nbsp; 另外,你 TTL 其他的配置是怎么设置的呢?
>
> 从原理上来说,checkpoint 就是 state 的一个快照,如果 checkpoint 越来越大,那么就是 state 越来越多。
> Best,
> Congxian
>
>
> op <[hidden email]&gt; 于2020年8月5日周三 下午2:46写道:
>
> &gt; &amp;nbsp; &amp;nbsp;
> &gt;
> 你好,我使用的是FsStateBackend&amp;nbsp;状态后端,调到5分钟也是一样,看了下checkpoint花费的时间都在300ms左右,我们的业务数据量每天基本一样,
> &gt; &amp;nbsp;
> &amp;nbsp;设置空闲状态清理时间为1440minute,按道理运行一天以后状态大小会趋于平稳,但是目前运行了5天,
> &gt; &amp;nbsp; &amp;nbsp;观察到的checkpoint shared 目录大小一直在增加,也确认过group
> &gt; by的key只会在处理当天出现,就是说这天的状态当天过后就会处于空闲状态,
> &gt; &amp;nbsp; &amp;nbsp;运行5天能满足清理条件
> &gt;
> &gt;
> &gt;
> &gt;
> &gt; ------------------ 原始邮件 ------------------
> &gt; 发件人:
> &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
> "user-zh"
> &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
> <
> &gt; [hidden email]&amp;gt;;
> &gt; 发送时间:&amp;nbsp;2020年8月3日(星期一) 下午5:50
> &gt; 收件人:&amp;nbsp;"user-zh"<[hidden email]&amp;gt;;
> &gt;
> &gt; 主题:&amp;nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大
> &gt;
> &gt;
> &gt;
> &gt; Hi
> &gt; &amp;nbsp;&amp;nbsp; 能否把 checkpoint 的 interval 调长一点再看看是否稳定呢?从 shared
> &gt; 目录的数据量看,有增长,后续基本持平。现在
> &gt; Checkpointed Data Size 是增量的大小[1],而不是整个 checkpoint 的数据量的大小,如果
> checkpoint
> &gt; 之间,数据改动很多的话,这个值会变大
> &gt;
> &gt; [1]
> &gt;
> &gt;
> https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7
> &gt
> <https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7&gt>;
> Best,
> &gt; Congxian
> &gt;
> &gt;
> &gt; op <[hidden email]&amp;gt; 于2020年8月3日周一 下午2:18写道:
> &gt;
> &gt; &amp;gt; &amp;amp;nbsp; &amp;amp;nbsp;
> &gt; &amp;gt;
> 同问,我也遇到了状态越来越大的情况,使用的是1.11.0版本,用hdfs保存checkpoint,checkpoint间隔3分钟,
> &gt; &amp;gt; 逻辑是按照 事件day 和 id 进行groupby
> &gt; &amp;gt; 然后有十几个聚合指标,运行了7天左右,状态一直在增加,设置了失效时间,然后watermark看着也正常在走
> &gt; &amp;gt; tConfig.setIdleStateRetentionTime(Time.minutes(1440),
> &gt; &amp;gt; Time.minutes(1440+10))
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt;
> ------------------&amp;amp;nbsp;原始邮件&amp;amp;nbsp;------------------
> &gt; &amp;gt; 发件人:
> &gt;
> &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
> &gt; &amp;nbsp; "user-zh"
> &gt;
> &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
> &gt; &amp;nbsp; <
> &gt; &amp;gt; [hidden email]&amp;amp;gt;;
> &gt; &amp;gt; 发送时间:&amp;amp;nbsp;2020年8月3日(星期一) 中午1:50
> &gt; &amp;gt; 收件人:&amp;amp;nbsp;"user-zh"<[hidden email]
> &amp;amp;gt;;
> &gt; &amp;gt;
> &gt; &amp;gt; 主题:&amp;amp;nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口
> 操作后 状态越来越大
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt; hi,您好:
> &gt; &amp;gt; 我改回增量模式重新收集了一些数据:
> &gt; &amp;gt; 1、数据处理速度:3000条每秒,是测试环境的,压力比较稳定,几乎没有波动
> &gt; &amp;gt; 2、checkpoint是interval设置的是5秒
> &gt; &amp;gt; 3、目前这个作业是每分钟一个窗口
> &gt; &amp;gt; 4、并行度设置的1,使用on-yarn模式
> &gt; &amp;gt;
> &gt; &amp;gt; 刚启动的时候,如下:
> &gt; &amp;gt; <
> http://apache-flink.147419.n8.nabble.com/file/t793/6.png&amp;amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt; 18分钟后,如下:
> &gt; &amp;gt; <
> http://apache-flink.147419.n8.nabble.com/file/t793/9.png&amp;amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt; checkpoints设置:
> &gt; &amp;gt; <
> http://apache-flink.147419.n8.nabble.com/file/t793/conf.png&amp;amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt; hdfs上面大小:
> &gt; &amp;gt; <
> http://apache-flink.147419.n8.nabble.com/file/t793/hdfs.png&amp;amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt; 页面上看到的大小:
> &gt; &amp;gt; <
> &gt;
> http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;amp;gt
> &gt
> <http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;amp;gt&gt>;
> ;
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt; Congxian Qiu wrote
> &gt; &amp;gt; &amp;amp;gt; Hi&amp;amp;nbsp;&amp;amp;nbsp; 鱼子酱
> &gt; &amp;gt;
> &amp;amp;gt;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;
> 能否把在使用增量 checkpoint
> &gt; 的模式下,截图看一下 checkpoint
> &gt; &amp;gt; size 的走势呢?另外可以的话,也麻烦你在每次
> &gt; &amp;gt; &amp;amp;gt; checkpoint 做完之后,到 hdfs 上 ls 一下 checkpoint 目录的大小。
> &gt; &amp;gt;
> &amp;amp;gt;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;
> &gt; 另外有一个问题还需要回答一下,你的处理速度大概是多少,state 的更新频率能否评估一下呢?
> &gt; &amp;gt; &amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt; Best,
> &gt; &amp;gt; &amp;amp;gt; Congxian
> &gt; &amp;gt; &amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt; 鱼子酱 <
> &gt; &amp;gt;
> &gt; &amp;gt; &amp;amp;gt; 384939718@
> &gt; &amp;gt;
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; 于2020年7月30日周四 上午10:43写道:
> &gt; &amp;gt; &amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; 感谢!
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> flink1.11.1版本里面,我尝试了下面两种backend,目前运行了20多个小时,
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; 能够看到状态的大小在一个区间内波动,没有发现一直增长的情况了。
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; StateBackend backend =new
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> &gt; &amp;gt;
> &gt;
> RocksDBStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false);
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; StateBackend backend =new
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> &gt; &amp;gt;
> &gt;
> FsStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false);
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> 这样看,有可能是RocksDBStateBackend增量模式这边可能存在一些问题。
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; RocksDBStateBackend:
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; &amp;amp;amp;lt;
> &gt; &amp;gt;
> http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;amp;gt
> &gt
> <http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;amp;gt&gt>;
> ;
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; FsStateBackend:
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; &amp;amp;amp;lt;
> &gt; &amp;gt;
> http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;amp;gt
> &gt
> <http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;amp;gt&gt>;
> ;
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; --
> &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; Sent from:
> http://apache-flink.147419.n8.nabble.com/
> &gt <http://apache-flink.147419.n8.nabble.com/&gt>; &amp;gt <
> http://apache-flink.147419.n8.nabble.com/&amp;gt&gt;;
> &amp;amp;gt;&amp;amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt;
> &gt; &amp;gt; --
> &gt; &amp;gt; Sent from: http://apache-flink.147419.n8.nabble.com/
Reply | Threaded
Open this post in threaded view
|

Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大

Congxian Qiu
Hi
    我这边没有看到相关的附件,不确定是邮件客户端的问题还是其他什么,你那边能否再确认下 附件 的发送情况呢?

Best,
Congxian


op <[hidden email]> 于2020年8月6日周四 上午10:36写道:

>    感谢 ,  截图和配置在附件里面
>   我试试配置  RocksDB StateBackend
>
>
> ------------------ 原始邮件 ------------------
> *发件人:* "user-zh" <[hidden email]>;
> *发送时间:* 2020年8月5日(星期三) 下午5:43
> *收件人:* "user-zh"<[hidden email]>;
> *主题:* Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大
>
> Hi
>   RocksDB StateBackend 只需要在 flink-conf 中进行一下配置就行了[1].
>
>   另外从你前面两份邮件看,我有些信息比较疑惑,你能否贴一下现在使用的 flink-conf,以及 checkpoint UI 的截图,以及 HDFS
> 上 checkpoint 目录的截图
>
> [1]
>
> https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E8%AE%BE%E7%BD%AE-state-backend
>
> Best,
> Congxian
>
>
> op <[hidden email]> 于2020年8月5日周三 下午4:03写道:
>
> > 你好,ttl配置是
> > val settings =
> EnvironmentSettings.newInstance().inStreamingMode().build()
> > val tableEnv = StreamTableEnvironment.create(bsEnv, settings)
> > val tConfig = tableEnv.getConfig
> > tConfig.setIdleStateRetentionTime(Time.minutes(1440), Time.minutes(1450))
> >
> >
> > &nbsp; &nbsp; 1)目前是有3个任务都是这种情况
> > &nbsp; &nbsp; 2)目前集群没有RocksDB环境
> > 谢谢
> > ------------------&nbsp;原始邮件&nbsp;------------------
> > 发件人:
> >                                                   "user-zh"
> >                                                                     <
> > [hidden email]&gt;;
> > 发送时间:&nbsp;2020年8月5日(星期三) 下午3:30
> > 收件人:&nbsp;"user-zh"<[hidden email]&gt;;
> >
> > 主题:&nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大
> >
> >
> >
> > Hi op
> > &nbsp;&nbsp; 这个情况比较奇怪。我想确认下:
> > &nbsp;&nbsp; 1)你所有作业都遇到 checkpoint size 不断变大的情况,还是只有这个类型的作业遇到这个问题呢?
> > &nbsp;&nbsp; 2)是否尝试过 RocksDBStateBackend 呢(全量和增量)?情况如何呢
> >
> > &nbsp;&nbsp; 另外,你 TTL 其他的配置是怎么设置的呢?
> >
> > 从原理上来说,checkpoint 就是 state 的一个快照,如果 checkpoint 越来越大,那么就是 state 越来越多。
> > Best,
> > Congxian
> >
> >
> > op <[hidden email]&gt; 于2020年8月5日周三 下午2:46写道:
> >
> > &gt; &amp;nbsp; &amp;nbsp;
> > &gt;
> >
> 你好,我使用的是FsStateBackend&amp;nbsp;状态后端,调到5分钟也是一样,看了下checkpoint花费的时间都在300ms左右,我们的业务数据量每天基本一样,
> > &gt; &amp;nbsp;
> > &amp;nbsp;设置空闲状态清理时间为1440minute,按道理运行一天以后状态大小会趋于平稳,但是目前运行了5天,
> > &gt; &amp;nbsp; &amp;nbsp;观察到的checkpoint shared 目录大小一直在增加,也确认过group
> > &gt; by的key只会在处理当天出现,就是说这天的状态当天过后就会处于空闲状态,
> > &gt; &amp;nbsp; &amp;nbsp;运行5天能满足清理条件
> > &gt;
> > &gt;
> > &gt;
> > &gt;
> > &gt; ------------------ 原始邮件 ------------------
> > &gt; 发件人:
> >
> &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
> > "user-zh"
> >
> &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
> > <
> > &gt; [hidden email]&amp;gt;;
> > &gt; 发送时间:&amp;nbsp;2020年8月3日(星期一) 下午5:50
> > &gt; 收件人:&amp;nbsp;"user-zh"<[hidden email]&amp;gt;;
> > &gt;
> > &gt; 主题:&amp;nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大
> > &gt;
> > &gt;
> > &gt;
> > &gt; Hi
> > &gt; &amp;nbsp;&amp;nbsp; 能否把 checkpoint 的 interval 调长一点再看看是否稳定呢?从 shared
> > &gt; 目录的数据量看,有增长,后续基本持平。现在
> > &gt; Checkpointed Data Size 是增量的大小[1],而不是整个 checkpoint 的数据量的大小,如果
> > checkpoint
> > &gt; 之间,数据改动很多的话,这个值会变大
> > &gt;
> > &gt; [1]
> > &gt;
> > &gt;
> >
> https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7
> > &gt
> > <
> https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7&gt
> >;
> > Best,
> > &gt; Congxian
> > &gt;
> > &gt;
> > &gt; op <[hidden email]&amp;gt; 于2020年8月3日周一 下午2:18写道:
> > &gt;
> > &gt; &amp;gt; &amp;amp;nbsp; &amp;amp;nbsp;
> > &gt; &amp;gt;
> > 同问,我也遇到了状态越来越大的情况,使用的是1.11.0版本,用hdfs保存checkpoint,checkpoint间隔3分钟,
> > &gt; &amp;gt; 逻辑是按照 事件day 和 id 进行groupby
> > &gt; &amp;gt; 然后有十几个聚合指标,运行了7天左右,状态一直在增加,设置了失效时间,然后watermark看着也正常在走
> > &gt; &amp;gt; tConfig.setIdleStateRetentionTime(Time.minutes(1440),
> > &gt; &amp;gt; Time.minutes(1440+10))
> > &gt; &amp;gt;
> > &gt; &amp;gt;
> > &gt; &amp;gt;
> > &gt; &amp;gt;
> > &gt; &amp;gt;
> > ------------------&amp;amp;nbsp;原始邮件&amp;amp;nbsp;------------------
> > &gt; &amp;gt; 发件人:
> > &gt;
> >
> &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
> > &gt; &amp;nbsp; "user-zh"
> > &gt;
> >
> &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
> > &gt; &amp;nbsp; <
> > &gt; &amp;gt; [hidden email]&amp;amp;gt;;
> > &gt; &amp;gt; 发送时间:&amp;amp;nbsp;2020年8月3日(星期一) 中午1:50
> > &gt; &amp;gt; 收件人:&amp;amp;nbsp;"user-zh"<[hidden email]
> > &amp;amp;gt;;
> > &gt; &amp;gt;
> > &gt; &amp;gt; 主题:&amp;amp;nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和
> 时间窗口
> > 操作后 状态越来越大
> > &gt; &amp;gt;
> > &gt; &amp;gt;
> > &gt; &amp;gt;
> > &gt; &amp;gt; hi,您好:
> > &gt; &amp;gt; 我改回增量模式重新收集了一些数据:
> > &gt; &amp;gt; 1、数据处理速度:3000条每秒,是测试环境的,压力比较稳定,几乎没有波动
> > &gt; &amp;gt; 2、checkpoint是interval设置的是5秒
> > &gt; &amp;gt; 3、目前这个作业是每分钟一个窗口
> > &gt; &amp;gt; 4、并行度设置的1,使用on-yarn模式
> > &gt; &amp;gt;
> > &gt; &amp;gt; 刚启动的时候,如下:
> > &gt; &amp;gt; <
> > http://apache-flink.147419.n8.nabble.com/file/t793/6.png&amp;amp;gt;
> > &gt; &amp;gt;
> > &gt; &amp;gt; 18分钟后,如下:
> > &gt; &amp;gt; <
> > http://apache-flink.147419.n8.nabble.com/file/t793/9.png&amp;amp;gt;
> > &gt; &amp;gt;
> > &gt; &amp;gt; checkpoints设置:
> > &gt; &amp;gt; <
> > http://apache-flink.147419.n8.nabble.com/file/t793/conf.png&amp;amp;gt;
> > &gt; &amp;gt;
> > &gt; &amp;gt; hdfs上面大小:
> > &gt; &amp;gt; <
> > http://apache-flink.147419.n8.nabble.com/file/t793/hdfs.png&amp;amp;gt;
> > &gt; &amp;gt;
> > &gt; &amp;gt; 页面上看到的大小:
> > &gt; &amp;gt; <
> > &gt;
> >
> http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;amp;gt
> > &gt
> > <
> http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;amp;gt&gt
> >;
> > ;
> > &gt; &amp;gt;
> > &gt; &amp;gt;
> > &gt; &amp;gt; Congxian Qiu wrote
> > &gt; &amp;gt; &amp;amp;gt; Hi&amp;amp;nbsp;&amp;amp;nbsp; 鱼子酱
> > &gt; &amp;gt;
> > &amp;amp;gt;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;
> > 能否把在使用增量 checkpoint
> > &gt; 的模式下,截图看一下 checkpoint
> > &gt; &amp;gt; size 的走势呢?另外可以的话,也麻烦你在每次
> > &gt; &amp;gt; &amp;amp;gt; checkpoint 做完之后,到 hdfs 上 ls 一下 checkpoint
> 目录的大小。
> > &gt; &amp;gt;
> > &amp;amp;gt;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;
> > &gt; 另外有一个问题还需要回答一下,你的处理速度大概是多少,state 的更新频率能否评估一下呢?
> > &gt; &amp;gt; &amp;amp;gt;
> > &gt; &amp;gt; &amp;amp;gt; Best,
> > &gt; &amp;gt; &amp;amp;gt; Congxian
> > &gt; &amp;gt; &amp;amp;gt;
> > &gt; &amp;gt; &amp;amp;gt;
> > &gt; &amp;gt; &amp;amp;gt; 鱼子酱 <
> > &gt; &amp;gt;
> > &gt; &amp;gt; &amp;amp;gt; 384939718@
> > &gt; &amp;gt;
> > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; 于2020年7月30日周四 上午10:43写道:
> > &gt; &amp;gt; &amp;amp;gt;
> > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; 感谢!
> > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> > flink1.11.1版本里面,我尝试了下面两种backend,目前运行了20多个小时,
> > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; 能够看到状态的大小在一个区间内波动,没有发现一直增长的情况了。
> > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; StateBackend backend =new
> > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> > &gt; &amp;gt;
> > &gt;
> >
> RocksDBStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false);
> > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; StateBackend backend =new
> > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> > &gt; &amp;gt;
> > &gt;
> >
> FsStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false);
> > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> > 这样看,有可能是RocksDBStateBackend增量模式这边可能存在一些问题。
> > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; RocksDBStateBackend:
> > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; &amp;amp;amp;lt;
> > &gt; &amp;gt;
> >
> http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;amp;gt
> > &gt
> > <
> http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;amp;gt&gt
> >;
> > ;
> > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; FsStateBackend:
> > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; &amp;amp;amp;lt;
> > &gt; &amp;gt;
> >
> http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;amp;gt
> > &gt
> > <
> http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;amp;gt&gt
> >;
> > ;
> > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; --
> > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; Sent from:
> > http://apache-flink.147419.n8.nabble.com/
> > &gt <http://apache-flink.147419.n8.nabble.com/&gt>; &amp;gt <
> > http://apache-flink.147419.n8.nabble.com/&amp;gt&gt;;
> > &amp;amp;gt;&amp;amp;gt;
> > &gt; &amp;gt;
> > &gt; &amp;gt;
> > &gt; &amp;gt;
> > &gt; &amp;gt;
> > &gt; &amp;gt;
> > &gt; &amp;gt; --
> > &gt; &amp;gt; Sent from: http://apache-flink.147419.n8.nabble.com/
>
Reply | Threaded
Open this post in threaded view
|

Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大

Yu Li
@鱼子酱
请问同样的作业,都使用RocksDB增量checkpoint,在1.8.2版本和1.11.1版本下的表现是否一致?还是说只有1.11.1版本下增量大小会单调增加?

@op 类似的问题,请问使用FsStateBackend,是否在不同Flink版本下测试过?表现是否一致?

上述问题主要想确认一下新版本的表现和旧版本是否一致,如果不一致则有可能是新版本中引入的bug。谢谢。

Best Regards,
Yu


On Thu, 6 Aug 2020 at 13:52, Congxian Qiu <[hidden email]> wrote:

> Hi
>     我这边没有看到相关的附件,不确定是邮件客户端的问题还是其他什么,你那边能否再确认下 附件 的发送情况呢?
>
> Best,
> Congxian
>
>
> op <[hidden email]> 于2020年8月6日周四 上午10:36写道:
>
> >    感谢 ,  截图和配置在附件里面
> >   我试试配置  RocksDB StateBackend
> >
> >
> > ------------------ 原始邮件 ------------------
> > *发件人:* "user-zh" <[hidden email]>;
> > *发送时间:* 2020年8月5日(星期三) 下午5:43
> > *收件人:* "user-zh"<[hidden email]>;
> > *主题:* Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大
> >
> > Hi
> >   RocksDB StateBackend 只需要在 flink-conf 中进行一下配置就行了[1].
> >
> >   另外从你前面两份邮件看,我有些信息比较疑惑,你能否贴一下现在使用的 flink-conf,以及 checkpoint UI 的截图,以及
> HDFS
> > 上 checkpoint 目录的截图
> >
> > [1]
> >
> >
> https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E8%AE%BE%E7%BD%AE-state-backend
> >
> > Best,
> > Congxian
> >
> >
> > op <[hidden email]> 于2020年8月5日周三 下午4:03写道:
> >
> > > 你好,ttl配置是
> > > val settings =
> > EnvironmentSettings.newInstance().inStreamingMode().build()
> > > val tableEnv = StreamTableEnvironment.create(bsEnv, settings)
> > > val tConfig = tableEnv.getConfig
> > > tConfig.setIdleStateRetentionTime(Time.minutes(1440),
> Time.minutes(1450))
> > >
> > >
> > > &nbsp; &nbsp; 1)目前是有3个任务都是这种情况
> > > &nbsp; &nbsp; 2)目前集群没有RocksDB环境
> > > 谢谢
> > > ------------------&nbsp;原始邮件&nbsp;------------------
> > > 发件人:
> > >                                                   "user-zh"
> > >                                                                     <
> > > [hidden email]&gt;;
> > > 发送时间:&nbsp;2020年8月5日(星期三) 下午3:30
> > > 收件人:&nbsp;"user-zh"<[hidden email]&gt;;
> > >
> > > 主题:&nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大
> > >
> > >
> > >
> > > Hi op
> > > &nbsp;&nbsp; 这个情况比较奇怪。我想确认下:
> > > &nbsp;&nbsp; 1)你所有作业都遇到 checkpoint size 不断变大的情况,还是只有这个类型的作业遇到这个问题呢?
> > > &nbsp;&nbsp; 2)是否尝试过 RocksDBStateBackend 呢(全量和增量)?情况如何呢
> > >
> > > &nbsp;&nbsp; 另外,你 TTL 其他的配置是怎么设置的呢?
> > >
> > > 从原理上来说,checkpoint 就是 state 的一个快照,如果 checkpoint 越来越大,那么就是 state 越来越多。
> > > Best,
> > > Congxian
> > >
> > >
> > > op <[hidden email]&gt; 于2020年8月5日周三 下午2:46写道:
> > >
> > > &gt; &amp;nbsp; &amp;nbsp;
> > > &gt;
> > >
> >
> 你好,我使用的是FsStateBackend&amp;nbsp;状态后端,调到5分钟也是一样,看了下checkpoint花费的时间都在300ms左右,我们的业务数据量每天基本一样,
> > > &gt; &amp;nbsp;
> > > &amp;nbsp;设置空闲状态清理时间为1440minute,按道理运行一天以后状态大小会趋于平稳,但是目前运行了5天,
> > > &gt; &amp;nbsp; &amp;nbsp;观察到的checkpoint shared 目录大小一直在增加,也确认过group
> > > &gt; by的key只会在处理当天出现,就是说这天的状态当天过后就会处于空闲状态,
> > > &gt; &amp;nbsp; &amp;nbsp;运行5天能满足清理条件
> > > &gt;
> > > &gt;
> > > &gt;
> > > &gt;
> > > &gt; ------------------ 原始邮件 ------------------
> > > &gt; 发件人:
> > >
> >
> &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
> > > "user-zh"
> > >
> >
> &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
> > > <
> > > &gt; [hidden email]&amp;gt;;
> > > &gt; 发送时间:&amp;nbsp;2020年8月3日(星期一) 下午5:50
> > > &gt; 收件人:&amp;nbsp;"user-zh"<[hidden email]&amp;gt;;
> > > &gt;
> > > &gt; 主题:&amp;nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后
> 状态越来越大
> > > &gt;
> > > &gt;
> > > &gt;
> > > &gt; Hi
> > > &gt; &amp;nbsp;&amp;nbsp; 能否把 checkpoint 的 interval 调长一点再看看是否稳定呢?从
> shared
> > > &gt; 目录的数据量看,有增长,后续基本持平。现在
> > > &gt; Checkpointed Data Size 是增量的大小[1],而不是整个 checkpoint 的数据量的大小,如果
> > > checkpoint
> > > &gt; 之间,数据改动很多的话,这个值会变大
> > > &gt;
> > > &gt; [1]
> > > &gt;
> > > &gt;
> > >
> >
> https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7
> > > &gt
> > > <
> >
> https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7&gt
> > >;
> > > Best,
> > > &gt; Congxian
> > > &gt;
> > > &gt;
> > > &gt; op <[hidden email]&amp;gt; 于2020年8月3日周一 下午2:18写道:
> > > &gt;
> > > &gt; &amp;gt; &amp;amp;nbsp; &amp;amp;nbsp;
> > > &gt; &amp;gt;
> > > 同问,我也遇到了状态越来越大的情况,使用的是1.11.0版本,用hdfs保存checkpoint,checkpoint间隔3分钟,
> > > &gt; &amp;gt; 逻辑是按照 事件day 和 id 进行groupby
> > > &gt; &amp;gt; 然后有十几个聚合指标,运行了7天左右,状态一直在增加,设置了失效时间,然后watermark看着也正常在走
> > > &gt; &amp;gt; tConfig.setIdleStateRetentionTime(Time.minutes(1440),
> > > &gt; &amp;gt; Time.minutes(1440+10))
> > > &gt; &amp;gt;
> > > &gt; &amp;gt;
> > > &gt; &amp;gt;
> > > &gt; &amp;gt;
> > > &gt; &amp;gt;
> > > ------------------&amp;amp;nbsp;原始邮件&amp;amp;nbsp;------------------
> > > &gt; &amp;gt; 发件人:
> > > &gt;
> > >
> >
> &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
> > > &gt; &amp;nbsp; "user-zh"
> > > &gt;
> > >
> >
> &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
> > > &gt; &amp;nbsp; <
> > > &gt; &amp;gt; [hidden email]&amp;amp;gt;;
> > > &gt; &amp;gt; 发送时间:&amp;amp;nbsp;2020年8月3日(星期一) 中午1:50
> > > &gt; &amp;gt; 收件人:&amp;amp;nbsp;"user-zh"<[hidden email]
> > > &amp;amp;gt;;
> > > &gt; &amp;gt;
> > > &gt; &amp;gt; 主题:&amp;amp;nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和
> > 时间窗口
> > > 操作后 状态越来越大
> > > &gt; &amp;gt;
> > > &gt; &amp;gt;
> > > &gt; &amp;gt;
> > > &gt; &amp;gt; hi,您好:
> > > &gt; &amp;gt; 我改回增量模式重新收集了一些数据:
> > > &gt; &amp;gt; 1、数据处理速度:3000条每秒,是测试环境的,压力比较稳定,几乎没有波动
> > > &gt; &amp;gt; 2、checkpoint是interval设置的是5秒
> > > &gt; &amp;gt; 3、目前这个作业是每分钟一个窗口
> > > &gt; &amp;gt; 4、并行度设置的1,使用on-yarn模式
> > > &gt; &amp;gt;
> > > &gt; &amp;gt; 刚启动的时候,如下:
> > > &gt; &amp;gt; <
> > > http://apache-flink.147419.n8.nabble.com/file/t793/6.png&amp;amp;gt;
> > > &gt; &amp;gt;
> > > &gt; &amp;gt; 18分钟后,如下:
> > > &gt; &amp;gt; <
> > > http://apache-flink.147419.n8.nabble.com/file/t793/9.png&amp;amp;gt;
> > > &gt; &amp;gt;
> > > &gt; &amp;gt; checkpoints设置:
> > > &gt; &amp;gt; <
> > > http://apache-flink.147419.n8.nabble.com/file/t793/conf.png&amp;amp;gt
> ;
> > > &gt; &amp;gt;
> > > &gt; &amp;gt; hdfs上面大小:
> > > &gt; &amp;gt; <
> > > http://apache-flink.147419.n8.nabble.com/file/t793/hdfs.png&amp;amp;gt
> ;
> > > &gt; &amp;gt;
> > > &gt; &amp;gt; 页面上看到的大小:
> > > &gt; &amp;gt; <
> > > &gt;
> > >
> >
> http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;amp;gt
> > > &gt
> > > <
> >
> http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;amp;gt&gt
> > >;
> > > ;
> > > &gt; &amp;gt;
> > > &gt; &amp;gt;
> > > &gt; &amp;gt; Congxian Qiu wrote
> > > &gt; &amp;gt; &amp;amp;gt; Hi&amp;amp;nbsp;&amp;amp;nbsp; 鱼子酱
> > > &gt; &amp;gt;
> > > &amp;amp;gt;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;
> > > 能否把在使用增量 checkpoint
> > > &gt; 的模式下,截图看一下 checkpoint
> > > &gt; &amp;gt; size 的走势呢?另外可以的话,也麻烦你在每次
> > > &gt; &amp;gt; &amp;amp;gt; checkpoint 做完之后,到 hdfs 上 ls 一下 checkpoint
> > 目录的大小。
> > > &gt; &amp;gt;
> > > &amp;amp;gt;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;
> > > &gt; 另外有一个问题还需要回答一下,你的处理速度大概是多少,state 的更新频率能否评估一下呢?
> > > &gt; &amp;gt; &amp;amp;gt;
> > > &gt; &amp;gt; &amp;amp;gt; Best,
> > > &gt; &amp;gt; &amp;amp;gt; Congxian
> > > &gt; &amp;gt; &amp;amp;gt;
> > > &gt; &amp;gt; &amp;amp;gt;
> > > &gt; &amp;gt; &amp;amp;gt; 鱼子酱 <
> > > &gt; &amp;gt;
> > > &gt; &amp;gt; &amp;amp;gt; 384939718@
> > > &gt; &amp;gt;
> > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; 于2020年7月30日周四 上午10:43写道:
> > > &gt; &amp;gt; &amp;amp;gt;
> > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; 感谢!
> > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> > > flink1.11.1版本里面,我尝试了下面两种backend,目前运行了20多个小时,
> > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; 能够看到状态的大小在一个区间内波动,没有发现一直增长的情况了。
> > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; StateBackend backend =new
> > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> > > &gt; &amp;gt;
> > > &gt;
> > >
> >
> RocksDBStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false);
> > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; StateBackend backend =new
> > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> > > &gt; &amp;gt;
> > > &gt;
> > >
> >
> FsStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false);
> > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> > > 这样看,有可能是RocksDBStateBackend增量模式这边可能存在一些问题。
> > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; RocksDBStateBackend:
> > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; &amp;amp;amp;lt;
> > > &gt; &amp;gt;
> > >
> >
> http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;amp;gt
> > > &gt
> > > <
> >
> http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;amp;gt&gt
> > >;
> > > ;
> > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; FsStateBackend:
> > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; &amp;amp;amp;lt;
> > > &gt; &amp;gt;
> > >
> >
> http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;amp;gt
> > > &gt
> > > <
> >
> http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;amp;gt&gt
> > >;
> > > ;
> > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt;
> > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; --
> > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; Sent from:
> > > http://apache-flink.147419.n8.nabble.com/
> > > &gt <http://apache-flink.147419.n8.nabble.com/&gt>; &amp;gt <
> > > http://apache-flink.147419.n8.nabble.com/&amp;gt&gt;;
> > > &amp;amp;gt;&amp;amp;gt;
> > > &gt; &amp;gt;
> > > &gt; &amp;gt;
> > > &gt; &amp;gt;
> > > &gt; &amp;gt;
> > > &gt; &amp;gt;
> > > &gt; &amp;gt; --
> > > &gt; &amp;gt; Sent from: http://apache-flink.147419.n8.nabble.com/
> >
>
op
Reply | Threaded
Open this post in threaded view
|

回复: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大

op
感谢回答&nbsp;
我之前用1.10也有同样的问题




------------------&nbsp;原始邮件&nbsp;------------------
发件人:                                                                                                                        "user-zh"                                                                                    <[hidden email]&gt;;
发送时间:&nbsp;2020年8月6日(星期四) 下午4:01
收件人:&nbsp;"user-zh"<[hidden email]&gt;;

主题:&nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大



@鱼子酱
请问同样的作业,都使用RocksDB增量checkpoint,在1.8.2版本和1.11.1版本下的表现是否一致?还是说只有1.11.1版本下增量大小会单调增加?

@op 类似的问题,请问使用FsStateBackend,是否在不同Flink版本下测试过?表现是否一致?

上述问题主要想确认一下新版本的表现和旧版本是否一致,如果不一致则有可能是新版本中引入的bug。谢谢。

Best Regards,
Yu


On Thu, 6 Aug 2020 at 13:52, Congxian Qiu <[hidden email]&gt; wrote:

&gt; Hi
&gt;&nbsp;&nbsp;&nbsp;&nbsp; 我这边没有看到相关的附件,不确定是邮件客户端的问题还是其他什么,你那边能否再确认下 附件 的发送情况呢?
&gt;
&gt; Best,
&gt; Congxian
&gt;
&gt;
&gt; op <[hidden email]&gt; 于2020年8月6日周四 上午10:36写道:
&gt;
&gt; &gt;&nbsp;&nbsp;&nbsp; 感谢 ,&nbsp; 截图和配置在附件里面
&gt; &gt;&nbsp;&nbsp; 我试试配置&nbsp; RocksDB StateBackend
&gt; &gt;
&gt; &gt;
&gt; &gt; ------------------ 原始邮件 ------------------
&gt; &gt; *发件人:* "user-zh" <[hidden email]&gt;;
&gt; &gt; *发送时间:* 2020年8月5日(星期三) 下午5:43
&gt; &gt; *收件人:* "user-zh"<[hidden email]&gt;;
&gt; &gt; *主题:* Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大
&gt; &gt;
&gt; &gt; Hi
&gt; &gt;&nbsp;&nbsp; RocksDB StateBackend 只需要在 flink-conf 中进行一下配置就行了[1].
&gt; &gt;
&gt; &gt;&nbsp;&nbsp; 另外从你前面两份邮件看,我有些信息比较疑惑,你能否贴一下现在使用的 flink-conf,以及 checkpoint UI 的截图,以及
&gt; HDFS
&gt; &gt; 上 checkpoint 目录的截图
&gt; &gt;
&gt; &gt; [1]
&gt; &gt;
&gt; &gt;
&gt; https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E8%AE%BE%E7%BD%AE-state-backend
&gt; &gt;
&gt; &gt; Best,
&gt; &gt; Congxian
&gt; &gt;
&gt; &gt;
&gt; &gt; op <[hidden email]&gt; 于2020年8月5日周三 下午4:03写道:
&gt; &gt;
&gt; &gt; &gt; 你好,ttl配置是
&gt; &gt; &gt; val settings =
&gt; &gt; EnvironmentSettings.newInstance().inStreamingMode().build()
&gt; &gt; &gt; val tableEnv = StreamTableEnvironment.create(bsEnv, settings)
&gt; &gt; &gt; val tConfig = tableEnv.getConfig
&gt; &gt; &gt; tConfig.setIdleStateRetentionTime(Time.minutes(1440),
&gt; Time.minutes(1450))
&gt; &gt; &gt;
&gt; &gt; &gt;
&gt; &gt; &gt; &amp;nbsp; &amp;nbsp; 1)目前是有3个任务都是这种情况
&gt; &gt; &gt; &amp;nbsp; &amp;nbsp; 2)目前集群没有RocksDB环境
&gt; &gt; &gt; 谢谢
&gt; &gt; &gt; ------------------&amp;nbsp;原始邮件&amp;nbsp;------------------
&gt; &gt; &gt; 发件人:
&gt; &gt; &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "user-zh"
&gt; &gt; &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <
&gt; &gt; &gt; [hidden email]&amp;gt;;
&gt; &gt; &gt; 发送时间:&amp;nbsp;2020年8月5日(星期三) 下午3:30
&gt; &gt; &gt; 收件人:&amp;nbsp;"user-zh"<[hidden email]&amp;gt;;
&gt; &gt; &gt;
&gt; &gt; &gt; 主题:&amp;nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大
&gt; &gt; &gt;
&gt; &gt; &gt;
&gt; &gt; &gt;
&gt; &gt; &gt; Hi op
&gt; &gt; &gt; &amp;nbsp;&amp;nbsp; 这个情况比较奇怪。我想确认下:
&gt; &gt; &gt; &amp;nbsp;&amp;nbsp; 1)你所有作业都遇到 checkpoint size 不断变大的情况,还是只有这个类型的作业遇到这个问题呢?
&gt; &gt; &gt; &amp;nbsp;&amp;nbsp; 2)是否尝试过 RocksDBStateBackend 呢(全量和增量)?情况如何呢
&gt; &gt; &gt;
&gt; &gt; &gt; &amp;nbsp;&amp;nbsp; 另外,你 TTL 其他的配置是怎么设置的呢?
&gt; &gt; &gt;
&gt; &gt; &gt; 从原理上来说,checkpoint 就是 state 的一个快照,如果 checkpoint 越来越大,那么就是 state 越来越多。
&gt; &gt; &gt; Best,
&gt; &gt; &gt; Congxian
&gt; &gt; &gt;
&gt; &gt; &gt;
&gt; &gt; &gt; op <[hidden email]&amp;gt; 于2020年8月5日周三 下午2:46写道:
&gt; &gt; &gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;nbsp; &amp;amp;nbsp;
&gt; &gt; &gt; &amp;gt;
&gt; &gt; &gt;
&gt; &gt;
&gt; 你好,我使用的是FsStateBackend&amp;amp;nbsp;状态后端,调到5分钟也是一样,看了下checkpoint花费的时间都在300ms左右,我们的业务数据量每天基本一样,
&gt; &gt; &gt; &amp;gt; &amp;amp;nbsp;
&gt; &gt; &gt; &amp;amp;nbsp;设置空闲状态清理时间为1440minute,按道理运行一天以后状态大小会趋于平稳,但是目前运行了5天,
&gt; &gt; &gt; &amp;gt; &amp;amp;nbsp; &amp;amp;nbsp;观察到的checkpoint shared 目录大小一直在增加,也确认过group
&gt; &gt; &gt; &amp;gt; by的key只会在处理当天出现,就是说这天的状态当天过后就会处于空闲状态,
&gt; &gt; &gt; &amp;gt; &amp;amp;nbsp; &amp;amp;nbsp;运行5天能满足清理条件
&gt; &gt; &gt; &amp;gt;
&gt; &gt; &gt; &amp;gt;
&gt; &gt; &gt; &amp;gt;
&gt; &gt; &gt; &amp;gt;
&gt; &gt; &gt; &amp;gt; ------------------ 原始邮件 ------------------
&gt; &gt; &gt; &amp;gt; 发件人:
&gt; &gt; &gt;
&gt; &gt;
&gt; &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
&gt; &gt; &gt; "user-zh"
&gt; &gt; &gt;
&gt; &gt;
&gt; &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
&gt; &gt; &gt; <
&gt; &gt; &gt; &amp;gt; [hidden email]&amp;amp;gt;;
&gt; &gt; &gt; &amp;gt; 发送时间:&amp;amp;nbsp;2020年8月3日(星期一) 下午5:50
&gt; &gt; &gt; &amp;gt; 收件人:&amp;amp;nbsp;"user-zh"<[hidden email]&amp;amp;gt;;
&gt; &gt; &gt; &amp;gt;
&gt; &gt; &gt; &amp;gt; 主题:&amp;amp;nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后
&gt; 状态越来越大
&gt; &gt; &gt; &amp;gt;
&gt; &gt; &gt; &amp;gt;
&gt; &gt; &gt; &amp;gt;
&gt; &gt; &gt; &amp;gt; Hi
&gt; &gt; &gt; &amp;gt; &amp;amp;nbsp;&amp;amp;nbsp; 能否把 checkpoint 的 interval 调长一点再看看是否稳定呢?从
&gt; shared
&gt; &gt; &gt; &amp;gt; 目录的数据量看,有增长,后续基本持平。现在
&gt; &gt; &gt; &amp;gt; Checkpointed Data Size 是增量的大小[1],而不是整个 checkpoint 的数据量的大小,如果
&gt; &gt; &gt; checkpoint
&gt; &gt; &gt; &amp;gt; 之间,数据改动很多的话,这个值会变大
&gt; &gt; &gt; &amp;gt;
&gt; &gt; &gt; &amp;gt; [1]
&gt; &gt; &gt; &amp;gt;
&gt; &gt; &gt; &amp;gt;
&gt; &gt; &gt;
&gt; &gt;
&gt; https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7
&gt; &gt; &gt; &amp;gt
&gt; &gt; &gt; <
&gt; &gt;
&gt; https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7&amp;gt
&gt; &gt; &gt;;
&gt; &gt; &gt; Best,
&gt; &gt; &gt; &amp;gt; Congxian
&gt; &gt; &gt; &amp;gt;
&gt; &gt; &gt; &amp;gt;
&gt; &gt; &gt; &amp;gt; op <[hidden email]&amp;amp;gt; 于2020年8月3日周一 下午2:18写道:
&gt; &gt; &gt; &amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;nbsp; &amp;amp;amp;nbsp;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &gt; 同问,我也遇到了状态越来越大的情况,使用的是1.11.0版本,用hdfs保存checkpoint,checkpoint间隔3分钟,
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; 逻辑是按照 事件day 和 id 进行groupby
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; 然后有十几个聚合指标,运行了7天左右,状态一直在增加,设置了失效时间,然后watermark看着也正常在走
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; tConfig.setIdleStateRetentionTime(Time.minutes(1440),
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; Time.minutes(1440+10))
&gt; &gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &gt; ------------------&amp;amp;amp;nbsp;原始邮件&amp;amp;amp;nbsp;------------------
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; 发件人:
&gt; &gt; &gt; &amp;gt;
&gt; &gt; &gt;
&gt; &gt;
&gt; &amp;amp;gt;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;
&gt; &gt; &gt; &amp;gt; &amp;amp;nbsp; "user-zh"
&gt; &gt; &gt; &amp;gt;
&gt; &gt; &gt;
&gt; &gt;
&gt; &amp;amp;gt;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;
&gt; &gt; &gt; &amp;gt; &amp;amp;nbsp; <
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; [hidden email]&amp;amp;amp;gt;;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; 发送时间:&amp;amp;amp;nbsp;2020年8月3日(星期一) 中午1:50
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; 收件人:&amp;amp;amp;nbsp;"user-zh"<[hidden email]
&gt; &gt; &gt; &amp;amp;amp;gt;;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; 主题:&amp;amp;amp;nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和
&gt; &gt; 时间窗口
&gt; &gt; &gt; 操作后 状态越来越大
&gt; &gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; hi,您好:
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; 我改回增量模式重新收集了一些数据:
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; 1、数据处理速度:3000条每秒,是测试环境的,压力比较稳定,几乎没有波动
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; 2、checkpoint是interval设置的是5秒
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; 3、目前这个作业是每分钟一个窗口
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; 4、并行度设置的1,使用on-yarn模式
&gt; &gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; 刚启动的时候,如下:
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; <
&gt; &gt; &gt; http://apache-flink.147419.n8.nabble.com/file/t793/6.png&amp;amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; 18分钟后,如下:
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; <
&gt; &gt; &gt; http://apache-flink.147419.n8.nabble.com/file/t793/9.png&amp;amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; checkpoints设置:
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; <
&gt; &gt; &gt; http://apache-flink.147419.n8.nabble.com/file/t793/conf.png&amp;amp;amp;gt
&gt; ;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; hdfs上面大小:
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; <
&gt; &gt; &gt; http://apache-flink.147419.n8.nabble.com/file/t793/hdfs.png&amp;amp;amp;gt
&gt; ;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; 页面上看到的大小:
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; <
&gt; &gt; &gt; &amp;gt;
&gt; &gt; &gt;
&gt; &gt;
&gt; http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;amp;amp;gt
&gt; &gt; &gt; &amp;gt
&gt; &gt; &gt; <
&gt; &gt;
&gt; http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;amp;amp;gt&amp;gt
&gt; &gt; &gt;;
&gt; &gt; &gt; ;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; Congxian Qiu wrote
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; Hi&amp;amp;amp;nbsp;&amp;amp;amp;nbsp; 鱼子酱
&gt; &gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &gt; &amp;amp;amp;gt;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;
&gt; &gt; &gt; 能否把在使用增量 checkpoint
&gt; &gt; &gt; &amp;gt; 的模式下,截图看一下 checkpoint
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; size 的走势呢?另外可以的话,也麻烦你在每次
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; checkpoint 做完之后,到 hdfs 上 ls 一下 checkpoint
&gt; &gt; 目录的大小。
&gt; &gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &gt; &amp;amp;amp;gt;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;
&gt; &gt; &gt; &amp;gt; 另外有一个问题还需要回答一下,你的处理速度大概是多少,state 的更新频率能否评估一下呢?
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; Best,
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; Congxian
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; 鱼子酱 <
&gt; &gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; 384939718@
&gt; &gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt; 于2020年7月30日周四 上午10:43写道:
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt; 感谢!
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
&gt; &gt; &gt; flink1.11.1版本里面,我尝试了下面两种backend,目前运行了20多个小时,
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt; 能够看到状态的大小在一个区间内波动,没有发现一直增长的情况了。
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt; StateBackend backend =new
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &gt; &amp;gt;
&gt; &gt; &gt;
&gt; &gt;
&gt; RocksDBStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false);
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt; StateBackend backend =new
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &gt; &amp;gt;
&gt; &gt; &gt;
&gt; &gt;
&gt; FsStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false);
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
&gt; &gt; &gt; 这样看,有可能是RocksDBStateBackend增量模式这边可能存在一些问题。
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt; RocksDBStateBackend:
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt; &amp;amp;amp;amp;lt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &gt;
&gt; &gt;
&gt; http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;amp;amp;gt
&gt; &gt; &gt; &amp;gt
&gt; &gt; &gt; <
&gt; &gt;
&gt; http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;amp;amp;gt&amp;gt
&gt; &gt; &gt;;
&gt; &gt; &gt; ;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt; FsStateBackend:
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt; &amp;amp;amp;amp;lt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &gt;
&gt; &gt;
&gt; http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;amp;amp;gt
&gt; &gt; &gt; &amp;gt
&gt; &gt; &gt; <
&gt; &gt;
&gt; http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;amp;amp;gt&amp;gt
&gt; &gt; &gt;;
&gt; &gt; &gt; ;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt; --
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt; Sent from:
&gt; &gt; &gt; http://apache-flink.147419.n8.nabble.com/
&gt; &gt; &gt; &amp;gt <http://apache-flink.147419.n8.nabble.com/&amp;gt&gt;; &amp;amp;gt <
&gt; &gt; &gt; http://apache-flink.147419.n8.nabble.com/&amp;amp;gt&amp;gt;;
&gt; &gt; &gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; --
&gt; &gt; &gt; &amp;gt; &amp;amp;gt; Sent from: http://apache-flink.147419.n8.nabble.com/
&gt; &gt;
&gt;
Reply | Threaded
Open this post in threaded view
|

Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大

Yu Li
看到生产上使用的还是1.8.2版本,请问同样的作业使用1.8.2的表现是怎样的?

Best Regards,
Yu


On Thu, 6 Aug 2020 at 16:29, op <[hidden email]> wrote:

> 感谢回答&nbsp;
> 我之前用1.10也有同样的问题
>
>
>
>
> ------------------&nbsp;原始邮件&nbsp;------------------
> 发件人:
>                                                   "user-zh"
>                                                                     <
> [hidden email]&gt;;
> 发送时间:&nbsp;2020年8月6日(星期四) 下午4:01
> 收件人:&nbsp;"user-zh"<[hidden email]&gt;;
>
> 主题:&nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大
>
>
>
> @鱼子酱
>
> 请问同样的作业,都使用RocksDB增量checkpoint,在1.8.2版本和1.11.1版本下的表现是否一致?还是说只有1.11.1版本下增量大小会单调增加?
>
> @op 类似的问题,请问使用FsStateBackend,是否在不同Flink版本下测试过?表现是否一致?
>
> 上述问题主要想确认一下新版本的表现和旧版本是否一致,如果不一致则有可能是新版本中引入的bug。谢谢。
>
> Best Regards,
> Yu
>
>
> On Thu, 6 Aug 2020 at 13:52, Congxian Qiu <[hidden email]&gt;
> wrote:
>
> &gt; Hi
> &gt;&nbsp;&nbsp;&nbsp;&nbsp; 我这边没有看到相关的附件,不确定是邮件客户端的问题还是其他什么,你那边能否再确认下 附件
> 的发送情况呢?
> &gt;
> &gt; Best,
> &gt; Congxian
> &gt;
> &gt;
> &gt; op <[hidden email]&gt; 于2020年8月6日周四 上午10:36写道:
> &gt;
> &gt; &gt;&nbsp;&nbsp;&nbsp; 感谢 ,&nbsp; 截图和配置在附件里面
> &gt; &gt;&nbsp;&nbsp; 我试试配置&nbsp; RocksDB StateBackend
> &gt; &gt;
> &gt; &gt;
> &gt; &gt; ------------------ 原始邮件 ------------------
> &gt; &gt; *发件人:* "user-zh" <[hidden email]&gt;;
> &gt; &gt; *发送时间:* 2020年8月5日(星期三) 下午5:43
> &gt; &gt; *收件人:* "user-zh"<[hidden email]&gt;;
> &gt; &gt; *主题:* Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大
> &gt; &gt;
> &gt; &gt; Hi
> &gt; &gt;&nbsp;&nbsp; RocksDB StateBackend 只需要在 flink-conf 中进行一下配置就行了[1].
> &gt; &gt;
> &gt; &gt;&nbsp;&nbsp; 另外从你前面两份邮件看,我有些信息比较疑惑,你能否贴一下现在使用的 flink-conf,以及
> checkpoint UI 的截图,以及
> &gt; HDFS
> &gt; &gt; 上 checkpoint 目录的截图
> &gt; &gt;
> &gt; &gt; [1]
> &gt; &gt;
> &gt; &gt;
> &gt;
> https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E8%AE%BE%E7%BD%AE-state-backend
> &gt
> <https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E8%AE%BE%E7%BD%AE-state-backend&gt>;
> &gt;
> &gt; &gt; Best,
> &gt; &gt; Congxian
> &gt; &gt;
> &gt; &gt;
> &gt; &gt; op <[hidden email]&gt; 于2020年8月5日周三 下午4:03写道:
> &gt; &gt;
> &gt; &gt; &gt; 你好,ttl配置是
> &gt; &gt; &gt; val settings =
> &gt; &gt; EnvironmentSettings.newInstance().inStreamingMode().build()
> &gt; &gt; &gt; val tableEnv = StreamTableEnvironment.create(bsEnv,
> settings)
> &gt; &gt; &gt; val tConfig = tableEnv.getConfig
> &gt; &gt; &gt; tConfig.setIdleStateRetentionTime(Time.minutes(1440),
> &gt; Time.minutes(1450))
> &gt; &gt; &gt;
> &gt; &gt; &gt;
> &gt; &gt; &gt; &amp;nbsp; &amp;nbsp; 1)目前是有3个任务都是这种情况
> &gt; &gt; &gt; &amp;nbsp; &amp;nbsp; 2)目前集群没有RocksDB环境
> &gt; &gt; &gt; 谢谢
> &gt; &gt; &gt; ------------------&amp;nbsp;原始邮件&amp;nbsp;------------------
> &gt; &gt; &gt; 发件人:
> &gt; &gt;
> &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
> "user-zh"
> &gt; &gt;
> &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
> <
> &gt; &gt; &gt; [hidden email]&amp;gt;;
> &gt; &gt; &gt; 发送时间:&amp;nbsp;2020年8月5日(星期三) 下午3:30
> &gt; &gt; &gt; 收件人:&amp;nbsp;"user-zh"<[hidden email]&amp;gt;;
> &gt; &gt; &gt;
> &gt; &gt; &gt; 主题:&amp;nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口
> 操作后 状态越来越大
> &gt; &gt; &gt;
> &gt; &gt; &gt;
> &gt; &gt; &gt;
> &gt; &gt; &gt; Hi op
> &gt; &gt; &gt; &amp;nbsp;&amp;nbsp; 这个情况比较奇怪。我想确认下:
> &gt; &gt; &gt; &amp;nbsp;&amp;nbsp; 1)你所有作业都遇到 checkpoint size
> 不断变大的情况,还是只有这个类型的作业遇到这个问题呢?
> &gt; &gt; &gt; &amp;nbsp;&amp;nbsp; 2)是否尝试过 RocksDBStateBackend
> 呢(全量和增量)?情况如何呢
> &gt; &gt; &gt;
> &gt; &gt; &gt; &amp;nbsp;&amp;nbsp; 另外,你 TTL 其他的配置是怎么设置的呢?
> &gt; &gt; &gt;
> &gt; &gt; &gt; 从原理上来说,checkpoint 就是 state 的一个快照,如果 checkpoint 越来越大,那么就是
> state 越来越多。
> &gt; &gt; &gt; Best,
> &gt; &gt; &gt; Congxian
> &gt; &gt; &gt;
> &gt; &gt; &gt;
> &gt; &gt; &gt; op <[hidden email]&amp;gt; 于2020年8月5日周三 下午2:46写道:
> &gt; &gt; &gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;nbsp; &amp;amp;nbsp;
> &gt; &gt; &gt; &amp;gt;
> &gt; &gt; &gt;
> &gt; &gt;
> &gt;
> 你好,我使用的是FsStateBackend&amp;amp;nbsp;状态后端,调到5分钟也是一样,看了下checkpoint花费的时间都在300ms左右,我们的业务数据量每天基本一样,
> &gt; &gt; &gt; &amp;gt; &amp;amp;nbsp;
> &gt; &gt; &gt;
> &amp;amp;nbsp;设置空闲状态清理时间为1440minute,按道理运行一天以后状态大小会趋于平稳,但是目前运行了5天,
> &gt; &gt; &gt; &amp;gt; &amp;amp;nbsp; &amp;amp;nbsp;观察到的checkpoint shared
> 目录大小一直在增加,也确认过group
> &gt; &gt; &gt; &amp;gt; by的key只会在处理当天出现,就是说这天的状态当天过后就会处于空闲状态,
> &gt; &gt; &gt; &amp;gt; &amp;amp;nbsp; &amp;amp;nbsp;运行5天能满足清理条件
> &gt; &gt; &gt; &amp;gt;
> &gt; &gt; &gt; &amp;gt;
> &gt; &gt; &gt; &amp;gt;
> &gt; &gt; &gt; &amp;gt;
> &gt; &gt; &gt; &amp;gt; ------------------ 原始邮件 ------------------
> &gt; &gt; &gt; &amp;gt; 发件人:
> &gt; &gt; &gt;
> &gt; &gt;
> &gt;
> &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
> &gt; &gt; &gt; "user-zh"
> &gt; &gt; &gt;
> &gt; &gt;
> &gt;
> &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
> &gt; &gt; &gt; <
> &gt; &gt; &gt; &amp;gt; [hidden email]&amp;amp;gt;;
> &gt; &gt; &gt; &amp;gt; 发送时间:&amp;amp;nbsp;2020年8月3日(星期一) 下午5:50
> &gt; &gt; &gt; &amp;gt; 收件人:&amp;amp;nbsp;"user-zh"<
> [hidden email]&amp;amp;gt;;
> &gt; &gt; &gt; &amp;gt;
> &gt; &gt; &gt; &amp;gt; 主题:&amp;amp;nbsp;Re: flink1.10.1/1.11.1 使用sql
> 进行group 和 时间窗口 操作后
> &gt; 状态越来越大
> &gt; &gt; &gt; &amp;gt;
> &gt; &gt; &gt; &amp;gt;
> &gt; &gt; &gt; &amp;gt;
> &gt; &gt; &gt; &amp;gt; Hi
> &gt; &gt; &gt; &amp;gt; &amp;amp;nbsp;&amp;amp;nbsp; 能否把 checkpoint 的
> interval 调长一点再看看是否稳定呢?从
> &gt; shared
> &gt; &gt; &gt; &amp;gt; 目录的数据量看,有增长,后续基本持平。现在
> &gt; &gt; &gt; &amp;gt; Checkpointed Data Size 是增量的大小[1],而不是整个 checkpoint
> 的数据量的大小,如果
> &gt; &gt; &gt; checkpoint
> &gt; &gt; &gt; &amp;gt; 之间,数据改动很多的话,这个值会变大
> &gt; &gt; &gt; &amp;gt;
> &gt; &gt; &gt; &amp;gt; [1]
> &gt; &gt; &gt; &amp;gt;
> &gt; &gt; &gt; &amp;gt;
> &gt; &gt; &gt;
> &gt; &gt;
> &gt;
> https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7
> &gt
> <https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7&gt>;
> &gt; &gt; &amp;gt
> &gt; &gt; &gt; <
> &gt; &gt;
> &gt;
> https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7&amp;gt
> &gt
> <https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7&amp;gt&gt>;
> &gt; &gt;;
> &gt; &gt; &gt; Best,
> &gt; &gt; &gt; &amp;gt; Congxian
> &gt; &gt; &gt; &amp;gt;
> &gt; &gt; &gt; &amp;gt;
> &gt; &gt; &gt; &amp;gt; op <[hidden email]&amp;amp;gt; 于2020年8月3日周一
> 下午2:18写道:
> &gt; &gt; &gt; &amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;nbsp; &amp;amp;amp;nbsp;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &gt;
> 同问,我也遇到了状态越来越大的情况,使用的是1.11.0版本,用hdfs保存checkpoint,checkpoint间隔3分钟,
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; 逻辑是按照 事件day 和 id 进行groupby
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt;
> 然后有十几个聚合指标,运行了7天左右,状态一直在增加,设置了失效时间,然后watermark看着也正常在走
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt;
> tConfig.setIdleStateRetentionTime(Time.minutes(1440),
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; Time.minutes(1440+10))
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &gt;
> ------------------&amp;amp;amp;nbsp;原始邮件&amp;amp;amp;nbsp;------------------
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; 发件人:
> &gt; &gt; &gt; &amp;gt;
> &gt; &gt; &gt;
> &gt; &gt;
> &gt;
> &amp;amp;gt;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;
> &gt; &gt; &gt; &amp;gt; &amp;amp;nbsp; "user-zh"
> &gt; &gt; &gt; &amp;gt;
> &gt; &gt; &gt;
> &gt; &gt;
> &gt;
> &amp;amp;gt;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;
> &gt; &gt; &gt; &amp;gt; &amp;amp;nbsp; <
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; [hidden email]&amp;amp;amp;gt;;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; 发送时间:&amp;amp;amp;nbsp;2020年8月3日(星期一)
> 中午1:50
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; 收件人:&amp;amp;amp;nbsp;"user-zh"<
> [hidden email]
> &gt; &gt; &gt; &amp;amp;amp;gt;;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; 主题:&amp;amp;amp;nbsp;Re:
> flink1.10.1/1.11.1 使用sql 进行group 和
> &gt; &gt; 时间窗口
> &gt; &gt; &gt; 操作后 状态越来越大
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; hi,您好:
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; 我改回增量模式重新收集了一些数据:
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; 1、数据处理速度:3000条每秒,是测试环境的,压力比较稳定,几乎没有波动
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; 2、checkpoint是interval设置的是5秒
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; 3、目前这个作业是每分钟一个窗口
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; 4、并行度设置的1,使用on-yarn模式
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; 刚启动的时候,如下:
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; <
> &gt; &gt; &gt;
> http://apache-flink.147419.n8.nabble.com/file/t793/6.png&amp;amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; 18分钟后,如下:
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; <
> &gt; &gt; &gt;
> http://apache-flink.147419.n8.nabble.com/file/t793/9.png&amp;amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; checkpoints设置:
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; <
> &gt; &gt; &gt;
> http://apache-flink.147419.n8.nabble.com/file/t793/conf.png&amp;amp;amp;gt
> &gt
> <http://apache-flink.147419.n8.nabble.com/file/t793/conf.png&amp;amp;amp;gt&gt>;
> ;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; hdfs上面大小:
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; <
> &gt; &gt; &gt;
> http://apache-flink.147419.n8.nabble.com/file/t793/hdfs.png&amp;amp;amp;gt
> &gt
> <http://apache-flink.147419.n8.nabble.com/file/t793/hdfs.png&amp;amp;amp;gt&gt>;
> ;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; 页面上看到的大小:
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; <
> &gt; &gt; &gt; &amp;gt;
> &gt; &gt; &gt;
> &gt; &gt;
> &gt;
> http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;amp;amp;gt
> &gt
> <http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;amp;amp;gt&gt>;
> &gt; &gt; &amp;gt
> &gt; &gt; &gt; <
> &gt; &gt;
> &gt;
> http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;amp;amp;gt&amp;gt
> &gt
> <http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;amp;amp;gt&amp;gt&gt>;
> &gt; &gt;;
> &gt; &gt; &gt; ;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; Congxian Qiu wrote
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
> Hi&amp;amp;amp;nbsp;&amp;amp;amp;nbsp; 鱼子酱
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &gt;
> &amp;amp;amp;gt;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;
> &gt; &gt; &gt; 能否把在使用增量 checkpoint
> &gt; &gt; &gt; &amp;gt; 的模式下,截图看一下 checkpoint
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; size 的走势呢?另外可以的话,也麻烦你在每次
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; checkpoint 做完之后,到
> hdfs 上 ls 一下 checkpoint
> &gt; &gt; 目录的大小。
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &gt;
> &amp;amp;amp;gt;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;
> &gt; &gt; &gt; &amp;gt; 另外有一个问题还需要回答一下,你的处理速度大概是多少,state 的更新频率能否评估一下呢?
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; Best,
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; Congxian
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; 鱼子酱 <
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; 384939718@
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> 于2020年7月30日周四 上午10:43写道:
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt; 感谢!
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> &gt; &gt; &gt; flink1.11.1版本里面,我尝试了下面两种backend,目前运行了20多个小时,
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> 能够看到状态的大小在一个区间内波动,没有发现一直增长的情况了。
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> StateBackend backend =new
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &gt; &amp;gt;
> &gt; &gt; &gt;
> &gt; &gt;
> &gt;
> RocksDBStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false);
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> StateBackend backend =new
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &gt; &amp;gt;
> &gt; &gt; &gt;
> &gt; &gt;
> &gt;
> FsStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false);
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> &gt; &gt; &gt; 这样看,有可能是RocksDBStateBackend增量模式这边可能存在一些问题。
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> RocksDBStateBackend:
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> &amp;amp;amp;amp;lt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &gt;
> &gt; &gt;
> &gt;
> http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;amp;amp;gt
> &gt
> <http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;amp;amp;gt&gt>;
> &gt; &gt; &amp;gt
> &gt; &gt; &gt; <
> &gt; &gt;
> &gt;
> http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;amp;amp;gt&amp;gt
> &gt
> <http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;amp;amp;gt&amp;gt&gt>;
> &gt; &gt;;
> &gt; &gt; &gt; ;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> FsStateBackend:
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> &amp;amp;amp;amp;lt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &gt;
> &gt; &gt;
> &gt;
> http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;amp;amp;gt
> &gt
> <http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;amp;amp;gt&gt>;
> &gt; &gt; &amp;gt
> &gt; &gt; &gt; <
> &gt; &gt;
> &gt;
> http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;amp;amp;gt&amp;gt
> &gt
> <http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;amp;amp;gt&amp;gt&gt>;
> &gt; &gt;;
> &gt; &gt; &gt; ;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt; --
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt; Sent
> from:
> &gt; &gt; &gt; http://apache-flink.147419.n8.nabble.com/
> &gt; &gt; &gt; &amp;gt <
> http://apache-flink.147419.n8.nabble.com/&amp;gt&gt;; &amp;amp;gt <
> &gt; &gt; &gt; http://apache-flink.147419.n8.nabble.com/&amp;amp;gt&amp;gt
> ;;
> &gt; &gt; &gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; --
> &gt; &gt; &gt; &amp;gt; &amp;amp;gt; Sent from:
> http://apache-flink.147419.n8.nabble.com/
> &gt <http://apache-flink.147419.n8.nabble.com/&gt>; &gt;
> &gt;
op
Reply | Threaded
Open this post in threaded view
|

回复: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大

op
In reply to this post by Congxian Qiu
Hi
&nbsp;1.&nbsp; &nbsp;我将原来程序里面的minibatch相关的配置删掉,现在使用FsStateBackend空闲状态能定期清除了,不知道这是不是一个bug,删掉的是以下配置
val config = tConfig.getConfiguration()
config.setString("table.exec.mini-batch.enabled", "true")
config.setString("table.exec.mini-batch.allow-latency", "3s")
config.setString("table.exec.mini-batch.size", "10")
2.使用RocksDBStateBackend时上面的配置不影响空闲状态清理


------------------&nbsp;原始邮件&nbsp;------------------
发件人:                                                                                                                        "user-zh"                                                                                    <[hidden email]&gt;;
发送时间:&nbsp;2020年8月6日(星期四) 中午1:51
收件人:&nbsp;"user-zh"<[hidden email]&gt;;

主题:&nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大



Hi
&nbsp;&nbsp;&nbsp; 我这边没有看到相关的附件,不确定是邮件客户端的问题还是其他什么,你那边能否再确认下 附件 的发送情况呢?

Best,
Congxian


op <[hidden email]&gt; 于2020年8月6日周四 上午10:36写道:

&gt;&nbsp;&nbsp;&nbsp; 感谢 ,&nbsp; 截图和配置在附件里面
&gt;&nbsp;&nbsp; 我试试配置&nbsp; RocksDB StateBackend
&gt;
&gt;
&gt; ------------------ 原始邮件 ------------------
&gt; *发件人:* "user-zh" <[hidden email]&gt;;
&gt; *发送时间:* 2020年8月5日(星期三) 下午5:43
&gt; *收件人:* "user-zh"<[hidden email]&gt;;
&gt; *主题:* Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大
&gt;
&gt; Hi
&gt;&nbsp;&nbsp; RocksDB StateBackend 只需要在 flink-conf 中进行一下配置就行了[1].
&gt;
&gt;&nbsp;&nbsp; 另外从你前面两份邮件看,我有些信息比较疑惑,你能否贴一下现在使用的 flink-conf,以及 checkpoint UI 的截图,以及 HDFS
&gt; 上 checkpoint 目录的截图
&gt;
&gt; [1]
&gt;
&gt; https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E8%AE%BE%E7%BD%AE-state-backend
&gt;
&gt; Best,
&gt; Congxian
&gt;
&gt;
&gt; op <[hidden email]&gt; 于2020年8月5日周三 下午4:03写道:
&gt;
&gt; &gt; 你好,ttl配置是
&gt; &gt; val settings =
&gt; EnvironmentSettings.newInstance().inStreamingMode().build()
&gt; &gt; val tableEnv = StreamTableEnvironment.create(bsEnv, settings)
&gt; &gt; val tConfig = tableEnv.getConfig
&gt; &gt; tConfig.setIdleStateRetentionTime(Time.minutes(1440), Time.minutes(1450))
&gt; &gt;
&gt; &gt;
&gt; &gt; &amp;nbsp; &amp;nbsp; 1)目前是有3个任务都是这种情况
&gt; &gt; &amp;nbsp; &amp;nbsp; 2)目前集群没有RocksDB环境
&gt; &gt; 谢谢
&gt; &gt; ------------------&amp;nbsp;原始邮件&amp;nbsp;------------------
&gt; &gt; 发件人:
&gt; &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; "user-zh"
&gt; &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <
&gt; &gt; [hidden email]&amp;gt;;
&gt; &gt; 发送时间:&amp;nbsp;2020年8月5日(星期三) 下午3:30
&gt; &gt; 收件人:&amp;nbsp;"user-zh"<[hidden email]&amp;gt;;
&gt; &gt;
&gt; &gt; 主题:&amp;nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大
&gt; &gt;
&gt; &gt;
&gt; &gt;
&gt; &gt; Hi op
&gt; &gt; &amp;nbsp;&amp;nbsp; 这个情况比较奇怪。我想确认下:
&gt; &gt; &amp;nbsp;&amp;nbsp; 1)你所有作业都遇到 checkpoint size 不断变大的情况,还是只有这个类型的作业遇到这个问题呢?
&gt; &gt; &amp;nbsp;&amp;nbsp; 2)是否尝试过 RocksDBStateBackend 呢(全量和增量)?情况如何呢
&gt; &gt;
&gt; &gt; &amp;nbsp;&amp;nbsp; 另外,你 TTL 其他的配置是怎么设置的呢?
&gt; &gt;
&gt; &gt; 从原理上来说,checkpoint 就是 state 的一个快照,如果 checkpoint 越来越大,那么就是 state 越来越多。
&gt; &gt; Best,
&gt; &gt; Congxian
&gt; &gt;
&gt; &gt;
&gt; &gt; op <[hidden email]&amp;gt; 于2020年8月5日周三 下午2:46写道:
&gt; &gt;
&gt; &gt; &amp;gt; &amp;amp;nbsp; &amp;amp;nbsp;
&gt; &gt; &amp;gt;
&gt; &gt;
&gt; 你好,我使用的是FsStateBackend&amp;amp;nbsp;状态后端,调到5分钟也是一样,看了下checkpoint花费的时间都在300ms左右,我们的业务数据量每天基本一样,
&gt; &gt; &amp;gt; &amp;amp;nbsp;
&gt; &gt; &amp;amp;nbsp;设置空闲状态清理时间为1440minute,按道理运行一天以后状态大小会趋于平稳,但是目前运行了5天,
&gt; &gt; &amp;gt; &amp;amp;nbsp; &amp;amp;nbsp;观察到的checkpoint shared 目录大小一直在增加,也确认过group
&gt; &gt; &amp;gt; by的key只会在处理当天出现,就是说这天的状态当天过后就会处于空闲状态,
&gt; &gt; &amp;gt; &amp;amp;nbsp; &amp;amp;nbsp;运行5天能满足清理条件
&gt; &gt; &amp;gt;
&gt; &gt; &amp;gt;
&gt; &gt; &amp;gt;
&gt; &gt; &amp;gt;
&gt; &gt; &amp;gt; ------------------ 原始邮件 ------------------
&gt; &gt; &amp;gt; 发件人:
&gt; &gt;
&gt; &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
&gt; &gt; "user-zh"
&gt; &gt;
&gt; &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
&gt; &gt; <
&gt; &gt; &amp;gt; [hidden email]&amp;amp;gt;;
&gt; &gt; &amp;gt; 发送时间:&amp;amp;nbsp;2020年8月3日(星期一) 下午5:50
&gt; &gt; &amp;gt; 收件人:&amp;amp;nbsp;"user-zh"<[hidden email]&amp;amp;gt;;
&gt; &gt; &amp;gt;
&gt; &gt; &amp;gt; 主题:&amp;amp;nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大
&gt; &gt; &amp;gt;
&gt; &gt; &amp;gt;
&gt; &gt; &amp;gt;
&gt; &gt; &amp;gt; Hi
&gt; &gt; &amp;gt; &amp;amp;nbsp;&amp;amp;nbsp; 能否把 checkpoint 的 interval 调长一点再看看是否稳定呢?从 shared
&gt; &gt; &amp;gt; 目录的数据量看,有增长,后续基本持平。现在
&gt; &gt; &amp;gt; Checkpointed Data Size 是增量的大小[1],而不是整个 checkpoint 的数据量的大小,如果
&gt; &gt; checkpoint
&gt; &gt; &amp;gt; 之间,数据改动很多的话,这个值会变大
&gt; &gt; &amp;gt;
&gt; &gt; &amp;gt; [1]
&gt; &gt; &amp;gt;
&gt; &gt; &amp;gt;
&gt; &gt;
&gt; https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7
&gt; &gt; &amp;gt
&gt; &gt; <
&gt; https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7&amp;gt
&gt; &gt;;
&gt; &gt; Best,
&gt; &gt; &amp;gt; Congxian
&gt; &gt; &amp;gt;
&gt; &gt; &amp;gt;
&gt; &gt; &amp;gt; op <[hidden email]&amp;amp;gt; 于2020年8月3日周一 下午2:18写道:
&gt; &gt; &amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;nbsp; &amp;amp;amp;nbsp;
&gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; 同问,我也遇到了状态越来越大的情况,使用的是1.11.0版本,用hdfs保存checkpoint,checkpoint间隔3分钟,
&gt; &gt; &amp;gt; &amp;amp;gt; 逻辑是按照 事件day 和 id 进行groupby
&gt; &gt; &amp;gt; &amp;amp;gt; 然后有十几个聚合指标,运行了7天左右,状态一直在增加,设置了失效时间,然后watermark看着也正常在走
&gt; &gt; &amp;gt; &amp;amp;gt; tConfig.setIdleStateRetentionTime(Time.minutes(1440),
&gt; &gt; &amp;gt; &amp;amp;gt; Time.minutes(1440+10))
&gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; ------------------&amp;amp;amp;nbsp;原始邮件&amp;amp;amp;nbsp;------------------
&gt; &gt; &amp;gt; &amp;amp;gt; 发件人:
&gt; &gt; &amp;gt;
&gt; &gt;
&gt; &amp;amp;gt;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;
&gt; &gt; &amp;gt; &amp;amp;nbsp; "user-zh"
&gt; &gt; &amp;gt;
&gt; &gt;
&gt; &amp;amp;gt;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;
&gt; &gt; &amp;gt; &amp;amp;nbsp; <
&gt; &gt; &amp;gt; &amp;amp;gt; [hidden email]&amp;amp;amp;gt;;
&gt; &gt; &amp;gt; &amp;amp;gt; 发送时间:&amp;amp;amp;nbsp;2020年8月3日(星期一) 中午1:50
&gt; &gt; &amp;gt; &amp;amp;gt; 收件人:&amp;amp;amp;nbsp;"user-zh"<[hidden email]
&gt; &gt; &amp;amp;amp;gt;;
&gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt; 主题:&amp;amp;amp;nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和
&gt; 时间窗口
&gt; &gt; 操作后 状态越来越大
&gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt; hi,您好:
&gt; &gt; &amp;gt; &amp;amp;gt; 我改回增量模式重新收集了一些数据:
&gt; &gt; &amp;gt; &amp;amp;gt; 1、数据处理速度:3000条每秒,是测试环境的,压力比较稳定,几乎没有波动
&gt; &gt; &amp;gt; &amp;amp;gt; 2、checkpoint是interval设置的是5秒
&gt; &gt; &amp;gt; &amp;amp;gt; 3、目前这个作业是每分钟一个窗口
&gt; &gt; &amp;gt; &amp;amp;gt; 4、并行度设置的1,使用on-yarn模式
&gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt; 刚启动的时候,如下:
&gt; &gt; &amp;gt; &amp;amp;gt; <
&gt; &gt; http://apache-flink.147419.n8.nabble.com/file/t793/6.png&amp;amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt; 18分钟后,如下:
&gt; &gt; &amp;gt; &amp;amp;gt; <
&gt; &gt; http://apache-flink.147419.n8.nabble.com/file/t793/9.png&amp;amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt; checkpoints设置:
&gt; &gt; &amp;gt; &amp;amp;gt; <
&gt; &gt; http://apache-flink.147419.n8.nabble.com/file/t793/conf.png&amp;amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt; hdfs上面大小:
&gt; &gt; &amp;gt; &amp;amp;gt; <
&gt; &gt; http://apache-flink.147419.n8.nabble.com/file/t793/hdfs.png&amp;amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt; 页面上看到的大小:
&gt; &gt; &amp;gt; &amp;amp;gt; <
&gt; &gt; &amp;gt;
&gt; &gt;
&gt; http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;amp;amp;gt
&gt; &gt; &amp;gt
&gt; &gt; <
&gt; http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;amp;amp;gt&amp;gt
&gt; &gt;;
&gt; &gt; ;
&gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt; Congxian Qiu wrote
&gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; Hi&amp;amp;amp;nbsp;&amp;amp;amp;nbsp; 鱼子酱
&gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &amp;amp;amp;gt;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;
&gt; &gt; 能否把在使用增量 checkpoint
&gt; &gt; &amp;gt; 的模式下,截图看一下 checkpoint
&gt; &gt; &amp;gt; &amp;amp;gt; size 的走势呢?另外可以的话,也麻烦你在每次
&gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; checkpoint 做完之后,到 hdfs 上 ls 一下 checkpoint
&gt; 目录的大小。
&gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &amp;amp;amp;gt;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;
&gt; &gt; &amp;gt; 另外有一个问题还需要回答一下,你的处理速度大概是多少,state 的更新频率能否评估一下呢?
&gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; Best,
&gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; Congxian
&gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; 鱼子酱 <
&gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; 384939718@
&gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt; 于2020年7月30日周四 上午10:43写道:
&gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt; 感谢!
&gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
&gt; &gt; flink1.11.1版本里面,我尝试了下面两种backend,目前运行了20多个小时,
&gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt; 能够看到状态的大小在一个区间内波动,没有发现一直增长的情况了。
&gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt; StateBackend backend =new
&gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &amp;gt;
&gt; &gt;
&gt; RocksDBStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false);
&gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt; StateBackend backend =new
&gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &amp;gt;
&gt; &gt;
&gt; FsStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false);
&gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
&gt; &gt; 这样看,有可能是RocksDBStateBackend增量模式这边可能存在一些问题。
&gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt; RocksDBStateBackend:
&gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt; &amp;amp;amp;amp;lt;
&gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt;
&gt; http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;amp;amp;gt
&gt; &gt; &amp;gt
&gt; &gt; <
&gt; http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;amp;amp;gt&amp;gt
&gt; &gt;;
&gt; &gt; ;
&gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt; FsStateBackend:
&gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt; &amp;amp;amp;amp;lt;
&gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt;
&gt; http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;amp;amp;gt
&gt; &gt; &amp;gt
&gt; &gt; <
&gt; http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;amp;amp;gt&amp;gt
&gt; &gt;;
&gt; &gt; ;
&gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt; --
&gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt; Sent from:
&gt; &gt; http://apache-flink.147419.n8.nabble.com/
&gt; &gt; &amp;gt <http://apache-flink.147419.n8.nabble.com/&amp;gt&gt;; &amp;amp;gt <
&gt; &gt; http://apache-flink.147419.n8.nabble.com/&amp;amp;gt&amp;gt;;
&gt; &gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt;
&gt; &gt; &amp;gt; &amp;amp;gt; --
&gt; &gt; &amp;gt; &amp;amp;gt; Sent from: http://apache-flink.147419.n8.nabble.com/
&gt;
Reply | Threaded
Open this post in threaded view
|

Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大

Congxian Qiu
Hi op
    或许你可以把现在的问题整理一下,单独发一个邮件,看你的描述这个问题和 sql 中的 minibatch 有关系
Best,
Congxian


op <[hidden email]> 于2020年8月7日周五 下午2:13写道:

> Hi
> &nbsp;1.&nbsp;
> &nbsp;我将原来程序里面的minibatch相关的配置删掉,现在使用FsStateBackend空闲状态能定期清除了,不知道这是不是一个bug,删掉的是以下配置
> val config = tConfig.getConfiguration()
> config.setString("table.exec.mini-batch.enabled", "true")
> config.setString("table.exec.mini-batch.allow-latency", "3s")
> config.setString("table.exec.mini-batch.size", "10")
> 2.使用RocksDBStateBackend时上面的配置不影响空闲状态清理
>
>
> ------------------&nbsp;原始邮件&nbsp;------------------
> 发件人:
>                                                   "user-zh"
>                                                                     <
> [hidden email]&gt;;
> 发送时间:&nbsp;2020年8月6日(星期四) 中午1:51
> 收件人:&nbsp;"user-zh"<[hidden email]&gt;;
>
> 主题:&nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大
>
>
>
> Hi
> &nbsp;&nbsp;&nbsp; 我这边没有看到相关的附件,不确定是邮件客户端的问题还是其他什么,你那边能否再确认下 附件 的发送情况呢?
>
> Best,
> Congxian
>
>
> op <[hidden email]&gt; 于2020年8月6日周四 上午10:36写道:
>
> &gt;&nbsp;&nbsp;&nbsp; 感谢 ,&nbsp; 截图和配置在附件里面
> &gt;&nbsp;&nbsp; 我试试配置&nbsp; RocksDB StateBackend
> &gt;
> &gt;
> &gt; ------------------ 原始邮件 ------------------
> &gt; *发件人:* "user-zh" <[hidden email]&gt;;
> &gt; *发送时间:* 2020年8月5日(星期三) 下午5:43
> &gt; *收件人:* "user-zh"<[hidden email]&gt;;
> &gt; *主题:* Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大
> &gt;
> &gt; Hi
> &gt;&nbsp;&nbsp; RocksDB StateBackend 只需要在 flink-conf 中进行一下配置就行了[1].
> &gt;
> &gt;&nbsp;&nbsp; 另外从你前面两份邮件看,我有些信息比较疑惑,你能否贴一下现在使用的 flink-conf,以及
> checkpoint UI 的截图,以及 HDFS
> &gt; 上 checkpoint 目录的截图
> &gt;
> &gt; [1]
> &gt;
> &gt;
> https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E8%AE%BE%E7%BD%AE-state-backend
> &gt
> <https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E8%AE%BE%E7%BD%AE-state-backend&gt>
> ;
> &gt; Best,
> &gt; Congxian
> &gt;
> &gt;
> &gt; op <[hidden email]&gt; 于2020年8月5日周三 下午4:03写道:
> &gt;
> &gt; &gt; 你好,ttl配置是
> &gt; &gt; val settings =
> &gt; EnvironmentSettings.newInstance().inStreamingMode().build()
> &gt; &gt; val tableEnv = StreamTableEnvironment.create(bsEnv, settings)
> &gt; &gt; val tConfig = tableEnv.getConfig
> &gt; &gt; tConfig.setIdleStateRetentionTime(Time.minutes(1440),
> Time.minutes(1450))
> &gt; &gt;
> &gt; &gt;
> &gt; &gt; &amp;nbsp; &amp;nbsp; 1)目前是有3个任务都是这种情况
> &gt; &gt; &amp;nbsp; &amp;nbsp; 2)目前集群没有RocksDB环境
> &gt; &gt; 谢谢
> &gt; &gt; ------------------&amp;nbsp;原始邮件&amp;nbsp;------------------
> &gt; &gt; 发件人:
> &gt;
> &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
> "user-zh"
> &gt;
> &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
> <
> &gt; &gt; [hidden email]&amp;gt;;
> &gt; &gt; 发送时间:&amp;nbsp;2020年8月5日(星期三) 下午3:30
> &gt; &gt; 收件人:&amp;nbsp;"user-zh"<[hidden email]&amp;gt;;
> &gt; &gt;
> &gt; &gt; 主题:&amp;nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后
> 状态越来越大
> &gt; &gt;
> &gt; &gt;
> &gt; &gt;
> &gt; &gt; Hi op
> &gt; &gt; &amp;nbsp;&amp;nbsp; 这个情况比较奇怪。我想确认下:
> &gt; &gt; &amp;nbsp;&amp;nbsp; 1)你所有作业都遇到 checkpoint size
> 不断变大的情况,还是只有这个类型的作业遇到这个问题呢?
> &gt; &gt; &amp;nbsp;&amp;nbsp; 2)是否尝试过 RocksDBStateBackend 呢(全量和增量)?情况如何呢
> &gt; &gt;
> &gt; &gt; &amp;nbsp;&amp;nbsp; 另外,你 TTL 其他的配置是怎么设置的呢?
> &gt; &gt;
> &gt; &gt; 从原理上来说,checkpoint 就是 state 的一个快照,如果 checkpoint 越来越大,那么就是 state
> 越来越多。
> &gt; &gt; Best,
> &gt; &gt; Congxian
> &gt; &gt;
> &gt; &gt;
> &gt; &gt; op <[hidden email]&amp;gt; 于2020年8月5日周三 下午2:46写道:
> &gt; &gt;
> &gt; &gt; &amp;gt; &amp;amp;nbsp; &amp;amp;nbsp;
> &gt; &gt; &amp;gt;
> &gt; &gt;
> &gt;
> 你好,我使用的是FsStateBackend&amp;amp;nbsp;状态后端,调到5分钟也是一样,看了下checkpoint花费的时间都在300ms左右,我们的业务数据量每天基本一样,
> &gt; &gt; &amp;gt; &amp;amp;nbsp;
> &gt; &gt; &amp;amp;nbsp;设置空闲状态清理时间为1440minute,按道理运行一天以后状态大小会趋于平稳,但是目前运行了5天,
> &gt; &gt; &amp;gt; &amp;amp;nbsp; &amp;amp;nbsp;观察到的checkpoint shared
> 目录大小一直在增加,也确认过group
> &gt; &gt; &amp;gt; by的key只会在处理当天出现,就是说这天的状态当天过后就会处于空闲状态,
> &gt; &gt; &amp;gt; &amp;amp;nbsp; &amp;amp;nbsp;运行5天能满足清理条件
> &gt; &gt; &amp;gt;
> &gt; &gt; &amp;gt;
> &gt; &gt; &amp;gt;
> &gt; &gt; &amp;gt;
> &gt; &gt; &amp;gt; ------------------ 原始邮件 ------------------
> &gt; &gt; &amp;gt; 发件人:
> &gt; &gt;
> &gt;
> &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
> &gt; &gt; "user-zh"
> &gt; &gt;
> &gt;
> &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
> &gt; &gt; <
> &gt; &gt; &amp;gt; [hidden email]&amp;amp;gt;;
> &gt; &gt; &amp;gt; 发送时间:&amp;amp;nbsp;2020年8月3日(星期一) 下午5:50
> &gt; &gt; &amp;gt; 收件人:&amp;amp;nbsp;"user-zh"<[hidden email]
> &amp;amp;gt;;
> &gt; &gt; &amp;gt;
> &gt; &gt; &amp;gt; 主题:&amp;amp;nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和
> 时间窗口 操作后 状态越来越大
> &gt; &gt; &amp;gt;
> &gt; &gt; &amp;gt;
> &gt; &gt; &amp;gt;
> &gt; &gt; &amp;gt; Hi
> &gt; &gt; &amp;gt; &amp;amp;nbsp;&amp;amp;nbsp; 能否把 checkpoint 的 interval
> 调长一点再看看是否稳定呢?从 shared
> &gt; &gt; &amp;gt; 目录的数据量看,有增长,后续基本持平。现在
> &gt; &gt; &amp;gt; Checkpointed Data Size 是增量的大小[1],而不是整个 checkpoint
> 的数据量的大小,如果
> &gt; &gt; checkpoint
> &gt; &gt; &amp;gt; 之间,数据改动很多的话,这个值会变大
> &gt; &gt; &amp;gt;
> &gt; &gt; &amp;gt; [1]
> &gt; &gt; &amp;gt;
> &gt; &gt; &amp;gt;
> &gt; &gt;
> &gt;
> https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7
> &gt
> <https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7&gt>;
> &gt; &amp;gt
> &gt; &gt; <
> &gt;
> https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7&amp;gt
> &gt
> <https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7&amp;gt&gt>;
> &gt;;
> &gt; &gt; Best,
> &gt; &gt; &amp;gt; Congxian
> &gt; &gt; &amp;gt;
> &gt; &gt; &amp;gt;
> &gt; &gt; &amp;gt; op <[hidden email]&amp;amp;gt; 于2020年8月3日周一 下午2:18写道:
> &gt; &gt; &amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;nbsp; &amp;amp;amp;nbsp;
> &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; 同问,我也遇到了状态越来越大的情况,使用的是1.11.0版本,用hdfs保存checkpoint,checkpoint间隔3分钟,
> &gt; &gt; &amp;gt; &amp;amp;gt; 逻辑是按照 事件day 和 id 进行groupby
> &gt; &gt; &amp;gt; &amp;amp;gt;
> 然后有十几个聚合指标,运行了7天左右,状态一直在增加,设置了失效时间,然后watermark看着也正常在走
> &gt; &gt; &amp;gt; &amp;amp;gt;
> tConfig.setIdleStateRetentionTime(Time.minutes(1440),
> &gt; &gt; &amp;gt; &amp;amp;gt; Time.minutes(1440+10))
> &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt;
> ------------------&amp;amp;amp;nbsp;原始邮件&amp;amp;amp;nbsp;------------------
> &gt; &gt; &amp;gt; &amp;amp;gt; 发件人:
> &gt; &gt; &amp;gt;
> &gt; &gt;
> &gt;
> &amp;amp;gt;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;
> &gt; &gt; &amp;gt; &amp;amp;nbsp; "user-zh"
> &gt; &gt; &amp;gt;
> &gt; &gt;
> &gt;
> &amp;amp;gt;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;
> &gt; &gt; &amp;gt; &amp;amp;nbsp; <
> &gt; &gt; &amp;gt; &amp;amp;gt; [hidden email]&amp;amp;amp;gt;;
> &gt; &gt; &amp;gt; &amp;amp;gt; 发送时间:&amp;amp;amp;nbsp;2020年8月3日(星期一)
> 中午1:50
> &gt; &gt; &amp;gt; &amp;amp;gt; 收件人:&amp;amp;amp;nbsp;"user-zh"<
> [hidden email]
> &gt; &gt; &amp;amp;amp;gt;;
> &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt; 主题:&amp;amp;amp;nbsp;Re:
> flink1.10.1/1.11.1 使用sql 进行group 和
> &gt; 时间窗口
> &gt; &gt; 操作后 状态越来越大
> &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt; hi,您好:
> &gt; &gt; &amp;gt; &amp;amp;gt; 我改回增量模式重新收集了一些数据:
> &gt; &gt; &amp;gt; &amp;amp;gt; 1、数据处理速度:3000条每秒,是测试环境的,压力比较稳定,几乎没有波动
> &gt; &gt; &amp;gt; &amp;amp;gt; 2、checkpoint是interval设置的是5秒
> &gt; &gt; &amp;gt; &amp;amp;gt; 3、目前这个作业是每分钟一个窗口
> &gt; &gt; &amp;gt; &amp;amp;gt; 4、并行度设置的1,使用on-yarn模式
> &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt; 刚启动的时候,如下:
> &gt; &gt; &amp;gt; &amp;amp;gt; <
> &gt; &gt;
> http://apache-flink.147419.n8.nabble.com/file/t793/6.png&amp;amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt; 18分钟后,如下:
> &gt; &gt; &amp;gt; &amp;amp;gt; <
> &gt; &gt;
> http://apache-flink.147419.n8.nabble.com/file/t793/9.png&amp;amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt; checkpoints设置:
> &gt; &gt; &amp;gt; &amp;amp;gt; <
> &gt; &gt;
> http://apache-flink.147419.n8.nabble.com/file/t793/conf.png&amp;amp;amp;gt
> ;
> &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt; hdfs上面大小:
> &gt; &gt; &amp;gt; &amp;amp;gt; <
> &gt; &gt;
> http://apache-flink.147419.n8.nabble.com/file/t793/hdfs.png&amp;amp;amp;gt
> ;
> &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt; 页面上看到的大小:
> &gt; &gt; &amp;gt; &amp;amp;gt; <
> &gt; &gt; &amp;gt;
> &gt; &gt;
> &gt;
> http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;amp;amp;gt
> &gt
> <http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;amp;amp;gt&gt>;
> &gt; &amp;gt
> &gt; &gt; <
> &gt;
> http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;amp;amp;gt&amp;gt
> &gt
> <http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;amp;amp;gt&amp;gt&gt>;
> &gt;;
> &gt; &gt; ;
> &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt; Congxian Qiu wrote
> &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
> Hi&amp;amp;amp;nbsp;&amp;amp;amp;nbsp; 鱼子酱
> &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt;
> &amp;amp;amp;gt;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;
> &gt; &gt; 能否把在使用增量 checkpoint
> &gt; &gt; &amp;gt; 的模式下,截图看一下 checkpoint
> &gt; &gt; &amp;gt; &amp;amp;gt; size 的走势呢?另外可以的话,也麻烦你在每次
> &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; checkpoint 做完之后,到 hdfs 上
> ls 一下 checkpoint
> &gt; 目录的大小。
> &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt;
> &amp;amp;amp;gt;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;
> &gt; &gt; &amp;gt; 另外有一个问题还需要回答一下,你的处理速度大概是多少,state 的更新频率能否评估一下呢?
> &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; Best,
> &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; Congxian
> &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; 鱼子酱 <
> &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt; 384939718@
> &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> 于2020年7月30日周四 上午10:43写道:
> &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt; 感谢!
> &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> &gt; &gt; flink1.11.1版本里面,我尝试了下面两种backend,目前运行了20多个小时,
> &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> 能够看到状态的大小在一个区间内波动,没有发现一直增长的情况了。
> &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> StateBackend backend =new
> &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &amp;gt;
> &gt; &gt;
> &gt;
> RocksDBStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false);
> &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> StateBackend backend =new
> &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &amp;gt;
> &gt; &gt;
> &gt;
> FsStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false);
> &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> &gt; &gt; 这样看,有可能是RocksDBStateBackend增量模式这边可能存在一些问题。
> &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> RocksDBStateBackend:
> &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> &amp;amp;amp;amp;lt;
> &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt;
> &gt;
> http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;amp;amp;gt
> &gt
> <http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;amp;amp;gt&gt>;
> &gt; &amp;gt
> &gt; &gt; <
> &gt;
> http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;amp;amp;gt&amp;gt
> &gt
> <http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;amp;amp;gt&amp;gt&gt>;
> &gt;;
> &gt; &gt; ;
> &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> FsStateBackend:
> &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> &amp;amp;amp;amp;lt;
> &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt;
> &gt;
> http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;amp;amp;gt
> &gt
> <http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;amp;amp;gt&gt>;
> &gt; &amp;gt
> &gt; &gt; <
> &gt;
> http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;amp;amp;gt&amp;gt
> &gt
> <http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;amp;amp;gt&amp;gt&gt>;
> &gt;;
> &gt; &gt; ;
> &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt; --
> &gt; &gt; &amp;gt; &amp;amp;gt; &amp;amp;amp;gt;&amp;amp;amp;gt; Sent from:
> &gt; &gt; http://apache-flink.147419.n8.nabble.com/
> &gt; &gt; &amp;gt <http://apache-flink.147419.n8.nabble.com/&amp;gt&gt;;
> &amp;amp;gt <
> &gt; &gt; http://apache-flink.147419.n8.nabble.com/&amp;amp;gt&amp;gt;;
> &gt; &gt; &amp;amp;amp;gt;&amp;amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt;
> &gt; &gt; &amp;gt; &amp;amp;gt; --
> &gt; &gt; &amp;gt; &amp;amp;gt; Sent from:
> http://apache-flink.147419.n8.nabble.com/
> &gt <http://apache-flink.147419.n8.nabble.com/&gt>;