你好,我使用的是FsStateBackend 状态后端,调到5分钟也是一样,看了下checkpoint花费的时间都在300ms左右,我们的业务数据量每天基本一样,
设置空闲状态清理时间为1440minute,按道理运行一天以后状态大小会趋于平稳,但是目前运行了5天, 观察到的checkpoint shared 目录大小一直在增加,也确认过group by的key只会在处理当天出现,就是说这天的状态当天过后就会处于空闲状态, 运行5天能满足清理条件 ------------------ 原始邮件 ------------------ 发件人: "user-zh" <[hidden email]>; 发送时间: 2020年8月3日(星期一) 下午5:50 收件人: "user-zh"<[hidden email]>; 主题: Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大 Hi 能否把 checkpoint 的 interval 调长一点再看看是否稳定呢?从 shared 目录的数据量看,有增长,后续基本持平。现在 Checkpointed Data Size 是增量的大小[1],而不是整个 checkpoint 的数据量的大小,如果 checkpoint 之间,数据改动很多的话,这个值会变大 [1] https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7 Best, Congxian op <[hidden email]> 于2020年8月3日周一 下午2:18写道: > &nbsp; &nbsp; > 同问,我也遇到了状态越来越大的情况,使用的是1.11.0版本,用hdfs保存checkpoint,checkpoint间隔3分钟, > 逻辑是按照 事件day 和 id 进行groupby > 然后有十几个聚合指标,运行了7天左右,状态一直在增加,设置了失效时间,然后watermark看着也正常在走 > tConfig.setIdleStateRetentionTime(Time.minutes(1440), > Time.minutes(1440+10)) > > > > > ------------------&nbsp;原始邮件&nbsp;------------------ > 发件人: > "user-zh" > < > [hidden email]&gt;; > 发送时间:&nbsp;2020年8月3日(星期一) 中午1:50 > 收件人:&nbsp;"user-zh"<[hidden email]&gt;; > > 主题:&nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大 > > > > hi,您好: > 我改回增量模式重新收集了一些数据: > 1、数据处理速度:3000条每秒,是测试环境的,压力比较稳定,几乎没有波动 > 2、checkpoint是interval设置的是5秒 > 3、目前这个作业是每分钟一个窗口 > 4、并行度设置的1,使用on-yarn模式 > > 刚启动的时候,如下: > <http://apache-flink.147419.n8.nabble.com/file/t793/6.png&gt; > > 18分钟后,如下: > <http://apache-flink.147419.n8.nabble.com/file/t793/9.png&gt; > > checkpoints设置: > <http://apache-flink.147419.n8.nabble.com/file/t793/conf.png&gt; > > hdfs上面大小: > <http://apache-flink.147419.n8.nabble.com/file/t793/hdfs.png&gt; > > 页面上看到的大小: > <http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&gt; > > > Congxian Qiu wrote > &gt; Hi&nbsp;&nbsp; 鱼子酱 > &gt;&nbsp;&nbsp;&nbsp;&nbsp; 能否把在使用增量 checkpoint 的模式下,截图看一下 checkpoint > size 的走势呢?另外可以的话,也麻烦你在每次 > &gt; checkpoint 做完之后,到 hdfs 上 ls 一下 checkpoint 目录的大小。 > &gt;&nbsp;&nbsp;&nbsp;&nbsp; 另外有一个问题还需要回答一下,你的处理速度大概是多少,state 的更新频率能否评估一下呢? > &gt; > &gt; Best, > &gt; Congxian > &gt; > &gt; > &gt; 鱼子酱 < > > &gt; 384939718@ > > &gt;&gt; 于2020年7月30日周四 上午10:43写道: > &gt; > &gt;&gt; 感谢! > &gt;&gt; > &gt;&gt; flink1.11.1版本里面,我尝试了下面两种backend,目前运行了20多个小时, > &gt;&gt; 能够看到状态的大小在一个区间内波动,没有发现一直增长的情况了。 > &gt;&gt; StateBackend backend =new > &gt;&gt; > &gt;&gt; > RocksDBStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false); > &gt;&gt; StateBackend backend =new > &gt;&gt; > &gt;&gt; > FsStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false); > &gt;&gt; > &gt;&gt; > &gt;&gt; 这样看,有可能是RocksDBStateBackend增量模式这边可能存在一些问题。 > &gt;&gt; RocksDBStateBackend: > &gt;&gt; &amp;lt; > http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;gt; > &gt;&gt; FsStateBackend: > &gt;&gt; &amp;lt; > http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;gt; > &gt;&gt; > &gt;&gt; > &gt;&gt; > &gt;&gt; > &gt;&gt; -- > &gt;&gt; Sent from: http://apache-flink.147419.n8.nabble.com/ > &gt;&gt; > > > > > > -- > Sent from: http://apache-flink.147419.n8.nabble.com/ |
Hi op
这个情况比较奇怪。我想确认下: 1)你所有作业都遇到 checkpoint size 不断变大的情况,还是只有这个类型的作业遇到这个问题呢? 2)是否尝试过 RocksDBStateBackend 呢(全量和增量)?情况如何呢 另外,你 TTL 其他的配置是怎么设置的呢? 从原理上来说,checkpoint 就是 state 的一个快照,如果 checkpoint 越来越大,那么就是 state 越来越多。 Best, Congxian op <[hidden email]> 于2020年8月5日周三 下午2:46写道: > > 你好,我使用的是FsStateBackend 状态后端,调到5分钟也是一样,看了下checkpoint花费的时间都在300ms左右,我们的业务数据量每天基本一样, > 设置空闲状态清理时间为1440minute,按道理运行一天以后状态大小会趋于平稳,但是目前运行了5天, > 观察到的checkpoint shared 目录大小一直在增加,也确认过group > by的key只会在处理当天出现,就是说这天的状态当天过后就会处于空闲状态, > 运行5天能满足清理条件 > > > > > ------------------ 原始邮件 ------------------ > 发件人: > "user-zh" > < > [hidden email]>; > 发送时间: 2020年8月3日(星期一) 下午5:50 > 收件人: "user-zh"<[hidden email]>; > > 主题: Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大 > > > > Hi > 能否把 checkpoint 的 interval 调长一点再看看是否稳定呢?从 shared > 目录的数据量看,有增长,后续基本持平。现在 > Checkpointed Data Size 是增量的大小[1],而不是整个 checkpoint 的数据量的大小,如果 checkpoint > 之间,数据改动很多的话,这个值会变大 > > [1] > > https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7 > Best, > Congxian > > > op <[hidden email]> 于2020年8月3日周一 下午2:18写道: > > > &nbsp; &nbsp; > > 同问,我也遇到了状态越来越大的情况,使用的是1.11.0版本,用hdfs保存checkpoint,checkpoint间隔3分钟, > > 逻辑是按照 事件day 和 id 进行groupby > > 然后有十几个聚合指标,运行了7天左右,状态一直在增加,设置了失效时间,然后watermark看着也正常在走 > > tConfig.setIdleStateRetentionTime(Time.minutes(1440), > > Time.minutes(1440+10)) > > > > > > > > > > ------------------&nbsp;原始邮件&nbsp;------------------ > > 发件人: > > > "user-zh" > > > < > > [hidden email]&gt;; > > 发送时间:&nbsp;2020年8月3日(星期一) 中午1:50 > > 收件人:&nbsp;"user-zh"<[hidden email]&gt;; > > > > 主题:&nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大 > > > > > > > > hi,您好: > > 我改回增量模式重新收集了一些数据: > > 1、数据处理速度:3000条每秒,是测试环境的,压力比较稳定,几乎没有波动 > > 2、checkpoint是interval设置的是5秒 > > 3、目前这个作业是每分钟一个窗口 > > 4、并行度设置的1,使用on-yarn模式 > > > > 刚启动的时候,如下: > > <http://apache-flink.147419.n8.nabble.com/file/t793/6.png&gt; > > > > 18分钟后,如下: > > <http://apache-flink.147419.n8.nabble.com/file/t793/9.png&gt; > > > > checkpoints设置: > > <http://apache-flink.147419.n8.nabble.com/file/t793/conf.png&gt; > > > > hdfs上面大小: > > <http://apache-flink.147419.n8.nabble.com/file/t793/hdfs.png&gt; > > > > 页面上看到的大小: > > < > http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&gt > ; > > > > > > Congxian Qiu wrote > > &gt; Hi&nbsp;&nbsp; 鱼子酱 > > &gt;&nbsp;&nbsp;&nbsp;&nbsp; 能否把在使用增量 checkpoint > 的模式下,截图看一下 checkpoint > > size 的走势呢?另外可以的话,也麻烦你在每次 > > &gt; checkpoint 做完之后,到 hdfs 上 ls 一下 checkpoint 目录的大小。 > > &gt;&nbsp;&nbsp;&nbsp;&nbsp; > 另外有一个问题还需要回答一下,你的处理速度大概是多少,state 的更新频率能否评估一下呢? > > &gt; > > &gt; Best, > > &gt; Congxian > > &gt; > > &gt; > > &gt; 鱼子酱 < > > > > &gt; 384939718@ > > > > &gt;&gt; 于2020年7月30日周四 上午10:43写道: > > &gt; > > &gt;&gt; 感谢! > > &gt;&gt; > > &gt;&gt; flink1.11.1版本里面,我尝试了下面两种backend,目前运行了20多个小时, > > &gt;&gt; 能够看到状态的大小在一个区间内波动,没有发现一直增长的情况了。 > > &gt;&gt; StateBackend backend =new > > &gt;&gt; > > &gt;&gt; > > > RocksDBStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false); > > &gt;&gt; StateBackend backend =new > > &gt;&gt; > > &gt;&gt; > > > FsStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false); > > &gt;&gt; > > &gt;&gt; > > &gt;&gt; 这样看,有可能是RocksDBStateBackend增量模式这边可能存在一些问题。 > > &gt;&gt; RocksDBStateBackend: > > &gt;&gt; &amp;lt; > > http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;gt > ; > > &gt;&gt; FsStateBackend: > > &gt;&gt; &amp;lt; > > http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;gt > ; > > &gt;&gt; > > &gt;&gt; > > &gt;&gt; > > &gt;&gt; > > &gt;&gt; -- > > &gt;&gt; Sent from: http://apache-flink.147419.n8.nabble.com/ > > <http://apache-flink.147419.n8.nabble.com/>>; &gt;&gt; > > > > > > > > > > > > -- > > Sent from: http://apache-flink.147419.n8.nabble.com/ |
你好,ttl配置是
val settings = EnvironmentSettings.newInstance().inStreamingMode().build() val tableEnv = StreamTableEnvironment.create(bsEnv, settings) val tConfig = tableEnv.getConfig tConfig.setIdleStateRetentionTime(Time.minutes(1440), Time.minutes(1450)) 1)目前是有3个任务都是这种情况 2)目前集群没有RocksDB环境 谢谢 ------------------ 原始邮件 ------------------ 发件人: "user-zh" <[hidden email]>; 发送时间: 2020年8月5日(星期三) 下午3:30 收件人: "user-zh"<[hidden email]>; 主题: Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大 Hi op 这个情况比较奇怪。我想确认下: 1)你所有作业都遇到 checkpoint size 不断变大的情况,还是只有这个类型的作业遇到这个问题呢? 2)是否尝试过 RocksDBStateBackend 呢(全量和增量)?情况如何呢 另外,你 TTL 其他的配置是怎么设置的呢? 从原理上来说,checkpoint 就是 state 的一个快照,如果 checkpoint 越来越大,那么就是 state 越来越多。 Best, Congxian op <[hidden email]> 于2020年8月5日周三 下午2:46写道: > &nbsp; &nbsp; > 你好,我使用的是FsStateBackend&nbsp;状态后端,调到5分钟也是一样,看了下checkpoint花费的时间都在300ms左右,我们的业务数据量每天基本一样, > &nbsp; &nbsp;设置空闲状态清理时间为1440minute,按道理运行一天以后状态大小会趋于平稳,但是目前运行了5天, > &nbsp; &nbsp;观察到的checkpoint shared 目录大小一直在增加,也确认过group > by的key只会在处理当天出现,就是说这天的状态当天过后就会处于空闲状态, > &nbsp; &nbsp;运行5天能满足清理条件 > > > > > ------------------ 原始邮件 ------------------ > 发件人: > "user-zh" > < > [hidden email]&gt;; > 发送时间:&nbsp;2020年8月3日(星期一) 下午5:50 > 收件人:&nbsp;"user-zh"<[hidden email]&gt;; > > 主题:&nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大 > > > > Hi > &nbsp;&nbsp; 能否把 checkpoint 的 interval 调长一点再看看是否稳定呢?从 shared > 目录的数据量看,有增长,后续基本持平。现在 > Checkpointed Data Size 是增量的大小[1],而不是整个 checkpoint 的数据量的大小,如果 checkpoint > 之间,数据改动很多的话,这个值会变大 > > [1] > > https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7 > Best, > Congxian > > > op <[hidden email]&gt; 于2020年8月3日周一 下午2:18写道: > > &gt; &amp;nbsp; &amp;nbsp; > &gt; 同问,我也遇到了状态越来越大的情况,使用的是1.11.0版本,用hdfs保存checkpoint,checkpoint间隔3分钟, > &gt; 逻辑是按照 事件day 和 id 进行groupby > &gt; 然后有十几个聚合指标,运行了7天左右,状态一直在增加,设置了失效时间,然后watermark看着也正常在走 > &gt; tConfig.setIdleStateRetentionTime(Time.minutes(1440), > &gt; Time.minutes(1440+10)) > &gt; > &gt; > &gt; > &gt; > &gt; ------------------&amp;nbsp;原始邮件&amp;nbsp;------------------ > &gt; 发件人: > &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; > &nbsp; "user-zh" > &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; > &nbsp; < > &gt; [hidden email]&amp;gt;; > &gt; 发送时间:&amp;nbsp;2020年8月3日(星期一) 中午1:50 > &gt; 收件人:&amp;nbsp;"user-zh"<[hidden email]&amp;gt;; > &gt; > &gt; 主题:&amp;nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大 > &gt; > &gt; > &gt; > &gt; hi,您好: > &gt; 我改回增量模式重新收集了一些数据: > &gt; 1、数据处理速度:3000条每秒,是测试环境的,压力比较稳定,几乎没有波动 > &gt; 2、checkpoint是interval设置的是5秒 > &gt; 3、目前这个作业是每分钟一个窗口 > &gt; 4、并行度设置的1,使用on-yarn模式 > &gt; > &gt; 刚启动的时候,如下: > &gt; <http://apache-flink.147419.n8.nabble.com/file/t793/6.png&amp;gt; > &gt; > &gt; 18分钟后,如下: > &gt; <http://apache-flink.147419.n8.nabble.com/file/t793/9.png&amp;gt; > &gt; > &gt; checkpoints设置: > &gt; <http://apache-flink.147419.n8.nabble.com/file/t793/conf.png&amp;gt; > &gt; > &gt; hdfs上面大小: > &gt; <http://apache-flink.147419.n8.nabble.com/file/t793/hdfs.png&amp;gt; > &gt; > &gt; 页面上看到的大小: > &gt; < > http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;gt > ; > &gt; > &gt; > &gt; Congxian Qiu wrote > &gt; &amp;gt; Hi&amp;nbsp;&amp;nbsp; 鱼子酱 > &gt; &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; 能否把在使用增量 checkpoint > 的模式下,截图看一下 checkpoint > &gt; size 的走势呢?另外可以的话,也麻烦你在每次 > &gt; &amp;gt; checkpoint 做完之后,到 hdfs 上 ls 一下 checkpoint 目录的大小。 > &gt; &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; > 另外有一个问题还需要回答一下,你的处理速度大概是多少,state 的更新频率能否评估一下呢? > &gt; &amp;gt; > &gt; &amp;gt; Best, > &gt; &amp;gt; Congxian > &gt; &amp;gt; > &gt; &amp;gt; > &gt; &amp;gt; 鱼子酱 < > &gt; > &gt; &amp;gt; 384939718@ > &gt; > &gt; &amp;gt;&amp;gt; 于2020年7月30日周四 上午10:43写道: > &gt; &amp;gt; > &gt; &amp;gt;&amp;gt; 感谢! > &gt; &amp;gt;&amp;gt; > &gt; &amp;gt;&amp;gt; flink1.11.1版本里面,我尝试了下面两种backend,目前运行了20多个小时, > &gt; &amp;gt;&amp;gt; 能够看到状态的大小在一个区间内波动,没有发现一直增长的情况了。 > &gt; &amp;gt;&amp;gt; StateBackend backend =new > &gt; &amp;gt;&amp;gt; > &gt; &amp;gt;&amp;gt; > &gt; > RocksDBStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false); > &gt; &amp;gt;&amp;gt; StateBackend backend =new > &gt; &amp;gt;&amp;gt; > &gt; &amp;gt;&amp;gt; > &gt; > FsStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false); > &gt; &amp;gt;&amp;gt; > &gt; &amp;gt;&amp;gt; > &gt; &amp;gt;&amp;gt; 这样看,有可能是RocksDBStateBackend增量模式这边可能存在一些问题。 > &gt; &amp;gt;&amp;gt; RocksDBStateBackend: > &gt; &amp;gt;&amp;gt; &amp;amp;lt; > &gt; http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;gt > ; > &gt; &amp;gt;&amp;gt; FsStateBackend: > &gt; &amp;gt;&amp;gt; &amp;amp;lt; > &gt; http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;gt > ; > &gt; &amp;gt;&amp;gt; > &gt; &amp;gt;&amp;gt; > &gt; &amp;gt;&amp;gt; > &gt; &amp;gt;&amp;gt; > &gt; &amp;gt;&amp;gt; -- > &gt; &amp;gt;&amp;gt; Sent from: http://apache-flink.147419.n8.nabble.com/ > &gt <http://apache-flink.147419.n8.nabble.com/&gt>; &amp;gt;&amp;gt; > &gt; > &gt; > &gt; > &gt; > &gt; > &gt; -- > &gt; Sent from: http://apache-flink.147419.n8.nabble.com/ |
Hi
RocksDB StateBackend 只需要在 flink-conf 中进行一下配置就行了[1]. 另外从你前面两份邮件看,我有些信息比较疑惑,你能否贴一下现在使用的 flink-conf,以及 checkpoint UI 的截图,以及 HDFS 上 checkpoint 目录的截图 [1] https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E8%AE%BE%E7%BD%AE-state-backend Best, Congxian op <[hidden email]> 于2020年8月5日周三 下午4:03写道: > 你好,ttl配置是 > val settings = EnvironmentSettings.newInstance().inStreamingMode().build() > val tableEnv = StreamTableEnvironment.create(bsEnv, settings) > val tConfig = tableEnv.getConfig > tConfig.setIdleStateRetentionTime(Time.minutes(1440), Time.minutes(1450)) > > > 1)目前是有3个任务都是这种情况 > 2)目前集群没有RocksDB环境 > 谢谢 > ------------------ 原始邮件 ------------------ > 发件人: > "user-zh" > < > [hidden email]>; > 发送时间: 2020年8月5日(星期三) 下午3:30 > 收件人: "user-zh"<[hidden email]>; > > 主题: Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大 > > > > Hi op > 这个情况比较奇怪。我想确认下: > 1)你所有作业都遇到 checkpoint size 不断变大的情况,还是只有这个类型的作业遇到这个问题呢? > 2)是否尝试过 RocksDBStateBackend 呢(全量和增量)?情况如何呢 > > 另外,你 TTL 其他的配置是怎么设置的呢? > > 从原理上来说,checkpoint 就是 state 的一个快照,如果 checkpoint 越来越大,那么就是 state 越来越多。 > Best, > Congxian > > > op <[hidden email]> 于2020年8月5日周三 下午2:46写道: > > > &nbsp; &nbsp; > > > 你好,我使用的是FsStateBackend&nbsp;状态后端,调到5分钟也是一样,看了下checkpoint花费的时间都在300ms左右,我们的业务数据量每天基本一样, > > &nbsp; > &nbsp;设置空闲状态清理时间为1440minute,按道理运行一天以后状态大小会趋于平稳,但是目前运行了5天, > > &nbsp; &nbsp;观察到的checkpoint shared 目录大小一直在增加,也确认过group > > by的key只会在处理当天出现,就是说这天的状态当天过后就会处于空闲状态, > > &nbsp; &nbsp;运行5天能满足清理条件 > > > > > > > > > > ------------------ 原始邮件 ------------------ > > 发件人: > > > "user-zh" > > > < > > [hidden email]&gt;; > > 发送时间:&nbsp;2020年8月3日(星期一) 下午5:50 > > 收件人:&nbsp;"user-zh"<[hidden email]&gt;; > > > > 主题:&nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大 > > > > > > > > Hi > > &nbsp;&nbsp; 能否把 checkpoint 的 interval 调长一点再看看是否稳定呢?从 shared > > 目录的数据量看,有增长,后续基本持平。现在 > > Checkpointed Data Size 是增量的大小[1],而不是整个 checkpoint 的数据量的大小,如果 > checkpoint > > 之间,数据改动很多的话,这个值会变大 > > > > [1] > > > > > https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7 > > > <https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7>>; > Best, > > Congxian > > > > > > op <[hidden email]&gt; 于2020年8月3日周一 下午2:18写道: > > > > &gt; &amp;nbsp; &amp;nbsp; > > &gt; > 同问,我也遇到了状态越来越大的情况,使用的是1.11.0版本,用hdfs保存checkpoint,checkpoint间隔3分钟, > > &gt; 逻辑是按照 事件day 和 id 进行groupby > > &gt; 然后有十几个聚合指标,运行了7天左右,状态一直在增加,设置了失效时间,然后watermark看着也正常在走 > > &gt; tConfig.setIdleStateRetentionTime(Time.minutes(1440), > > &gt; Time.minutes(1440+10)) > > &gt; > > &gt; > > &gt; > > &gt; > > &gt; > ------------------&amp;nbsp;原始邮件&amp;nbsp;------------------ > > &gt; 发件人: > > > &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; > > &nbsp; "user-zh" > > > &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; > > &nbsp; < > > &gt; [hidden email]&amp;gt;; > > &gt; 发送时间:&amp;nbsp;2020年8月3日(星期一) 中午1:50 > > &gt; 收件人:&amp;nbsp;"user-zh"<[hidden email] > &amp;gt;; > > &gt; > > &gt; 主题:&amp;nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 > 操作后 状态越来越大 > > &gt; > > &gt; > > &gt; > > &gt; hi,您好: > > &gt; 我改回增量模式重新收集了一些数据: > > &gt; 1、数据处理速度:3000条每秒,是测试环境的,压力比较稳定,几乎没有波动 > > &gt; 2、checkpoint是interval设置的是5秒 > > &gt; 3、目前这个作业是每分钟一个窗口 > > &gt; 4、并行度设置的1,使用on-yarn模式 > > &gt; > > &gt; 刚启动的时候,如下: > > &gt; < > http://apache-flink.147419.n8.nabble.com/file/t793/6.png&amp;gt; > > &gt; > > &gt; 18分钟后,如下: > > &gt; < > http://apache-flink.147419.n8.nabble.com/file/t793/9.png&amp;gt; > > &gt; > > &gt; checkpoints设置: > > &gt; < > http://apache-flink.147419.n8.nabble.com/file/t793/conf.png&amp;gt; > > &gt; > > &gt; hdfs上面大小: > > &gt; < > http://apache-flink.147419.n8.nabble.com/file/t793/hdfs.png&amp;gt; > > &gt; > > &gt; 页面上看到的大小: > > &gt; < > > > http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;gt > > > <http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;gt>>; > ; > > &gt; > > &gt; > > &gt; Congxian Qiu wrote > > &gt; &amp;gt; Hi&amp;nbsp;&amp;nbsp; 鱼子酱 > > &gt; > &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; > 能否把在使用增量 checkpoint > > 的模式下,截图看一下 checkpoint > > &gt; size 的走势呢?另外可以的话,也麻烦你在每次 > > &gt; &amp;gt; checkpoint 做完之后,到 hdfs 上 ls 一下 checkpoint 目录的大小。 > > &gt; > &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; > > 另外有一个问题还需要回答一下,你的处理速度大概是多少,state 的更新频率能否评估一下呢? > > &gt; &amp;gt; > > &gt; &amp;gt; Best, > > &gt; &amp;gt; Congxian > > &gt; &amp;gt; > > &gt; &amp;gt; > > &gt; &amp;gt; 鱼子酱 < > > &gt; > > &gt; &amp;gt; 384939718@ > > &gt; > > &gt; &amp;gt;&amp;gt; 于2020年7月30日周四 上午10:43写道: > > &gt; &amp;gt; > > &gt; &amp;gt;&amp;gt; 感谢! > > &gt; &amp;gt;&amp;gt; > > &gt; &amp;gt;&amp;gt; > flink1.11.1版本里面,我尝试了下面两种backend,目前运行了20多个小时, > > &gt; &amp;gt;&amp;gt; 能够看到状态的大小在一个区间内波动,没有发现一直增长的情况了。 > > &gt; &amp;gt;&amp;gt; StateBackend backend =new > > &gt; &amp;gt;&amp;gt; > > &gt; &amp;gt;&amp;gt; > > &gt; > > > RocksDBStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false); > > &gt; &amp;gt;&amp;gt; StateBackend backend =new > > &gt; &amp;gt;&amp;gt; > > &gt; &amp;gt;&amp;gt; > > &gt; > > > FsStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false); > > &gt; &amp;gt;&amp;gt; > > &gt; &amp;gt;&amp;gt; > > &gt; &amp;gt;&amp;gt; > 这样看,有可能是RocksDBStateBackend增量模式这边可能存在一些问题。 > > &gt; &amp;gt;&amp;gt; RocksDBStateBackend: > > &gt; &amp;gt;&amp;gt; &amp;amp;lt; > > &gt; > http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;gt > > > <http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;gt>>; > ; > > &gt; &amp;gt;&amp;gt; FsStateBackend: > > &gt; &amp;gt;&amp;gt; &amp;amp;lt; > > &gt; > http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;gt > > > <http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;gt>>; > ; > > &gt; &amp;gt;&amp;gt; > > &gt; &amp;gt;&amp;gt; > > &gt; &amp;gt;&amp;gt; > > &gt; &amp;gt;&amp;gt; > > &gt; &amp;gt;&amp;gt; -- > > &gt; &amp;gt;&amp;gt; Sent from: > http://apache-flink.147419.n8.nabble.com/ > > <http://apache-flink.147419.n8.nabble.com/>>; &gt < > http://apache-flink.147419.n8.nabble.com/&gt>; > &amp;gt;&amp;gt; > > &gt; > > &gt; > > &gt; > > &gt; > > &gt; > > &gt; -- > > &gt; Sent from: http://apache-flink.147419.n8.nabble.com/ |
感谢 , 截图和配置在附件里面 我试试配置 RocksDB StateBackend ------------------ 原始邮件 ------------------ 发件人: "user-zh" <[hidden email]>; 发送时间: 2020年8月5日(星期三) 下午5:43 收件人: "user-zh"<[hidden email]>; 主题: Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大 RocksDB StateBackend 只需要在 flink-conf 中进行一下配置就行了[1]. 另外从你前面两份邮件看,我有些信息比较疑惑,你能否贴一下现在使用的 flink-conf,以及 checkpoint UI 的截图,以及 HDFS 上 checkpoint 目录的截图 [1] https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E8%AE%BE%E7%BD%AE-state-backend Best, Congxian op <[hidden email]> 于2020年8月5日周三 下午4:03写道: > 你好,ttl配置是 > val settings = EnvironmentSettings.newInstance().inStreamingMode().build() > val tableEnv = StreamTableEnvironment.create(bsEnv, settings) > val tConfig = tableEnv.getConfig > tConfig.setIdleStateRetentionTime(Time.minutes(1440), Time.minutes(1450)) > > > 1)目前是有3个任务都是这种情况 > 2)目前集群没有RocksDB环境 > 谢谢 > ------------------ 原始邮件 ------------------ > 发件人: > "user-zh" > < > [hidden email]>; > 发送时间: 2020年8月5日(星期三) 下午3:30 > 收件人: "user-zh"<[hidden email]>; > > 主题: Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大 > > > > Hi op > 这个情况比较奇怪。我想确认下: > 1)你所有作业都遇到 checkpoint size 不断变大的情况,还是只有这个类型的作业遇到这个问题呢? > 2)是否尝试过 RocksDBStateBackend 呢(全量和增量)?情况如何呢 > > 另外,你 TTL 其他的配置是怎么设置的呢? > > 从原理上来说,checkpoint 就是 state 的一个快照,如果 checkpoint 越来越大,那么就是 state 越来越多。 > Best, > Congxian > > > op <[hidden email]> 于2020年8月5日周三 下午2:46写道: > > > &nbsp; &nbsp; > > > 你好,我使用的是FsStateBackend&nbsp;状态后端,调到5分钟也是一样,看了下checkpoint花费的时间都在300ms左右,我们的业务数据量每天基本一样, > > &nbsp; > &nbsp;设置空闲状态清理时间为1440minute,按道理运行一天以后状态大小会趋于平稳,但是目前运行了5天, > > &nbsp; &nbsp;观察到的checkpoint shared 目录大小一直在增加,也确认过group > > by的key只会在处理当天出现,就是说这天的状态当天过后就会处于空闲状态, > > &nbsp; &nbsp;运行5天能满足清理条件 > > > > > > > > > > ------------------ 原始邮件 ------------------ > > 发件人: > > > "user-zh" > > > < > > [hidden email]&gt;; > > 发送时间:&nbsp;2020年8月3日(星期一) 下午5:50 > > 收件人:&nbsp;"user-zh"<[hidden email]&gt;; > > > > 主题:&nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大 > > > > > > > > Hi > > &nbsp;&nbsp; 能否把 checkpoint 的 interval 调长一点再看看是否稳定呢?从 shared > > 目录的数据量看,有增长,后续基本持平。现在 > > Checkpointed Data Size 是增量的大小[1],而不是整个 checkpoint 的数据量的大小,如果 > checkpoint > > 之间,数据改动很多的话,这个值会变大 > > > > [1] > > > > > https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7 > > > <https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7>>; > Best, > > Congxian > > > > > > op <[hidden email]&gt; 于2020年8月3日周一 下午2:18写道: > > > > &gt; &amp;nbsp; &amp;nbsp; > > &gt; > 同问,我也遇到了状态越来越大的情况,使用的是1.11.0版本,用hdfs保存checkpoint,checkpoint间隔3分钟, > > &gt; 逻辑是按照 事件day 和 id 进行groupby > > &gt; 然后有十几个聚合指标,运行了7天左右,状态一直在增加,设置了失效时间,然后watermark看着也正常在走 > > &gt; tConfig.setIdleStateRetentionTime(Time.minutes(1440), > > &gt; Time.minutes(1440+10)) > > &gt; > > &gt; > > &gt; > > &gt; > > &gt; > ------------------&amp;nbsp;原始邮件&amp;nbsp;------------------ > > &gt; 发件人: > > > &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; > > &nbsp; "user-zh" > > > &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; > > &nbsp; < > > &gt; [hidden email]&amp;gt;; > > &gt; 发送时间:&amp;nbsp;2020年8月3日(星期一) 中午1:50 > > &gt; 收件人:&amp;nbsp;"user-zh"<[hidden email] > &amp;gt;; > > &gt; > > &gt; 主题:&amp;nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 > 操作后 状态越来越大 > > &gt; > > &gt; > > &gt; > > &gt; hi,您好: > > &gt; 我改回增量模式重新收集了一些数据: > > &gt; 1、数据处理速度:3000条每秒,是测试环境的,压力比较稳定,几乎没有波动 > > &gt; 2、checkpoint是interval设置的是5秒 > > &gt; 3、目前这个作业是每分钟一个窗口 > > &gt; 4、并行度设置的1,使用on-yarn模式 > > &gt; > > &gt; 刚启动的时候,如下: > > &gt; < > http://apache-flink.147419.n8.nabble.com/file/t793/6.png&amp;gt; > > &gt; > > &gt; 18分钟后,如下: > > &gt; < > http://apache-flink.147419.n8.nabble.com/file/t793/9.png&amp;gt; > > &gt; > > &gt; checkpoints设置: > > &gt; < > http://apache-flink.147419.n8.nabble.com/file/t793/conf.png&amp;gt; > > &gt; > > &gt; hdfs上面大小: > > &gt; < > http://apache-flink.147419.n8.nabble.com/file/t793/hdfs.png&amp;gt; > > &gt; > > &gt; 页面上看到的大小: > > &gt; < > > > http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;gt > > > <http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;gt>>; > ; > > &gt; > > &gt; > > &gt; Congxian Qiu wrote > > &gt; &amp;gt; Hi&amp;nbsp;&amp;nbsp; 鱼子酱 > > &gt; > &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; > 能否把在使用增量 checkpoint > > 的模式下,截图看一下 checkpoint > > &gt; size 的走势呢?另外可以的话,也麻烦你在每次 > > &gt; &amp;gt; checkpoint 做完之后,到 hdfs 上 ls 一下 checkpoint 目录的大小。 > > &gt; > &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; > > 另外有一个问题还需要回答一下,你的处理速度大概是多少,state 的更新频率能否评估一下呢? > > &gt; &amp;gt; > > &gt; &amp;gt; Best, > > &gt; &amp;gt; Congxian > > &gt; &amp;gt; > > &gt; &amp;gt; > > &gt; &amp;gt; 鱼子酱 < > > &gt; > > &gt; &amp;gt; 384939718@ > > &gt; > > &gt; &amp;gt;&amp;gt; 于2020年7月30日周四 上午10:43写道: > > &gt; &amp;gt; > > &gt; &amp;gt;&amp;gt; 感谢! > > &gt; &amp;gt;&amp;gt; > > &gt; &amp;gt;&amp;gt; > flink1.11.1版本里面,我尝试了下面两种backend,目前运行了20多个小时, > > &gt; &amp;gt;&amp;gt; 能够看到状态的大小在一个区间内波动,没有发现一直增长的情况了。 > > &gt; &amp;gt;&amp;gt; StateBackend backend =new > > &gt; &amp;gt;&amp;gt; > > &gt; &amp;gt;&amp;gt; > > &gt; > > > RocksDBStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false); > > &gt; &amp;gt;&amp;gt; StateBackend backend =new > > &gt; &amp;gt;&amp;gt; > > &gt; &amp;gt;&amp;gt; > > &gt; > > > FsStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false); > > &gt; &amp;gt;&amp;gt; > > &gt; &amp;gt;&amp;gt; > > &gt; &amp;gt;&amp;gt; > 这样看,有可能是RocksDBStateBackend增量模式这边可能存在一些问题。 > > &gt; &amp;gt;&amp;gt; RocksDBStateBackend: > > &gt; &amp;gt;&amp;gt; &amp;amp;lt; > > &gt; > http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;gt > > > <http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;gt>>; > ; > > &gt; &amp;gt;&amp;gt; FsStateBackend: > > &gt; &amp;gt;&amp;gt; &amp;amp;lt; > > &gt; > http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;gt > > > <http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;gt>>; > ; > > &gt; &amp;gt;&amp;gt; > > &gt; &amp;gt;&amp;gt; > > &gt; &amp;gt;&amp;gt; > > &gt; &amp;gt;&amp;gt; > > &gt; &amp;gt;&amp;gt; -- > > &gt; &amp;gt;&amp;gt; Sent from: > http://apache-flink.147419.n8.nabble.com/ > > <http://apache-flink.147419.n8.nabble.com/>>; &gt < > http://apache-flink.147419.n8.nabble.com/&gt>; > &amp;gt;&amp;gt; > > &gt; > > &gt; > > &gt; > > &gt; > > &gt; > > &gt; -- > > &gt; Sent from: http://apache-flink.147419.n8.nabble.com/ |
Hi
我这边没有看到相关的附件,不确定是邮件客户端的问题还是其他什么,你那边能否再确认下 附件 的发送情况呢? Best, Congxian op <[hidden email]> 于2020年8月6日周四 上午10:36写道: > 感谢 , 截图和配置在附件里面 > 我试试配置 RocksDB StateBackend > > > ------------------ 原始邮件 ------------------ > *发件人:* "user-zh" <[hidden email]>; > *发送时间:* 2020年8月5日(星期三) 下午5:43 > *收件人:* "user-zh"<[hidden email]>; > *主题:* Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大 > > Hi > RocksDB StateBackend 只需要在 flink-conf 中进行一下配置就行了[1]. > > 另外从你前面两份邮件看,我有些信息比较疑惑,你能否贴一下现在使用的 flink-conf,以及 checkpoint UI 的截图,以及 HDFS > 上 checkpoint 目录的截图 > > [1] > > https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E8%AE%BE%E7%BD%AE-state-backend > > Best, > Congxian > > > op <[hidden email]> 于2020年8月5日周三 下午4:03写道: > > > 你好,ttl配置是 > > val settings = > EnvironmentSettings.newInstance().inStreamingMode().build() > > val tableEnv = StreamTableEnvironment.create(bsEnv, settings) > > val tConfig = tableEnv.getConfig > > tConfig.setIdleStateRetentionTime(Time.minutes(1440), Time.minutes(1450)) > > > > > > 1)目前是有3个任务都是这种情况 > > 2)目前集群没有RocksDB环境 > > 谢谢 > > ------------------ 原始邮件 ------------------ > > 发件人: > > "user-zh" > > < > > [hidden email]>; > > 发送时间: 2020年8月5日(星期三) 下午3:30 > > 收件人: "user-zh"<[hidden email]>; > > > > 主题: Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大 > > > > > > > > Hi op > > 这个情况比较奇怪。我想确认下: > > 1)你所有作业都遇到 checkpoint size 不断变大的情况,还是只有这个类型的作业遇到这个问题呢? > > 2)是否尝试过 RocksDBStateBackend 呢(全量和增量)?情况如何呢 > > > > 另外,你 TTL 其他的配置是怎么设置的呢? > > > > 从原理上来说,checkpoint 就是 state 的一个快照,如果 checkpoint 越来越大,那么就是 state 越来越多。 > > Best, > > Congxian > > > > > > op <[hidden email]> 于2020年8月5日周三 下午2:46写道: > > > > > &nbsp; &nbsp; > > > > > > 你好,我使用的是FsStateBackend&nbsp;状态后端,调到5分钟也是一样,看了下checkpoint花费的时间都在300ms左右,我们的业务数据量每天基本一样, > > > &nbsp; > > &nbsp;设置空闲状态清理时间为1440minute,按道理运行一天以后状态大小会趋于平稳,但是目前运行了5天, > > > &nbsp; &nbsp;观察到的checkpoint shared 目录大小一直在增加,也确认过group > > > by的key只会在处理当天出现,就是说这天的状态当天过后就会处于空闲状态, > > > &nbsp; &nbsp;运行5天能满足清理条件 > > > > > > > > > > > > > > > ------------------ 原始邮件 ------------------ > > > 发件人: > > > > > > "user-zh" > > > > > > < > > > [hidden email]&gt;; > > > 发送时间:&nbsp;2020年8月3日(星期一) 下午5:50 > > > 收件人:&nbsp;"user-zh"<[hidden email]&gt;; > > > > > > 主题:&nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大 > > > > > > > > > > > > Hi > > > &nbsp;&nbsp; 能否把 checkpoint 的 interval 调长一点再看看是否稳定呢?从 shared > > > 目录的数据量看,有增长,后续基本持平。现在 > > > Checkpointed Data Size 是增量的大小[1],而不是整个 checkpoint 的数据量的大小,如果 > > checkpoint > > > 之间,数据改动很多的话,这个值会变大 > > > > > > [1] > > > > > > > > > https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7 > > > > > < > https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7> > >; > > Best, > > > Congxian > > > > > > > > > op <[hidden email]&gt; 于2020年8月3日周一 下午2:18写道: > > > > > > &gt; &amp;nbsp; &amp;nbsp; > > > &gt; > > 同问,我也遇到了状态越来越大的情况,使用的是1.11.0版本,用hdfs保存checkpoint,checkpoint间隔3分钟, > > > &gt; 逻辑是按照 事件day 和 id 进行groupby > > > &gt; 然后有十几个聚合指标,运行了7天左右,状态一直在增加,设置了失效时间,然后watermark看着也正常在走 > > > &gt; tConfig.setIdleStateRetentionTime(Time.minutes(1440), > > > &gt; Time.minutes(1440+10)) > > > &gt; > > > &gt; > > > &gt; > > > &gt; > > > &gt; > > ------------------&amp;nbsp;原始邮件&amp;nbsp;------------------ > > > &gt; 发件人: > > > > > > &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; > > > &nbsp; "user-zh" > > > > > > &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; > > > &nbsp; < > > > &gt; [hidden email]&amp;gt;; > > > &gt; 发送时间:&amp;nbsp;2020年8月3日(星期一) 中午1:50 > > > &gt; 收件人:&amp;nbsp;"user-zh"<[hidden email] > > &amp;gt;; > > > &gt; > > > &gt; 主题:&amp;nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 > 时间窗口 > > 操作后 状态越来越大 > > > &gt; > > > &gt; > > > &gt; > > > &gt; hi,您好: > > > &gt; 我改回增量模式重新收集了一些数据: > > > &gt; 1、数据处理速度:3000条每秒,是测试环境的,压力比较稳定,几乎没有波动 > > > &gt; 2、checkpoint是interval设置的是5秒 > > > &gt; 3、目前这个作业是每分钟一个窗口 > > > &gt; 4、并行度设置的1,使用on-yarn模式 > > > &gt; > > > &gt; 刚启动的时候,如下: > > > &gt; < > > http://apache-flink.147419.n8.nabble.com/file/t793/6.png&amp;gt; > > > &gt; > > > &gt; 18分钟后,如下: > > > &gt; < > > http://apache-flink.147419.n8.nabble.com/file/t793/9.png&amp;gt; > > > &gt; > > > &gt; checkpoints设置: > > > &gt; < > > http://apache-flink.147419.n8.nabble.com/file/t793/conf.png&amp;gt; > > > &gt; > > > &gt; hdfs上面大小: > > > &gt; < > > http://apache-flink.147419.n8.nabble.com/file/t793/hdfs.png&amp;gt; > > > &gt; > > > &gt; 页面上看到的大小: > > > &gt; < > > > > > > http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;gt > > > > > < > http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;gt> > >; > > ; > > > &gt; > > > &gt; > > > &gt; Congxian Qiu wrote > > > &gt; &amp;gt; Hi&amp;nbsp;&amp;nbsp; 鱼子酱 > > > &gt; > > &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; > > 能否把在使用增量 checkpoint > > > 的模式下,截图看一下 checkpoint > > > &gt; size 的走势呢?另外可以的话,也麻烦你在每次 > > > &gt; &amp;gt; checkpoint 做完之后,到 hdfs 上 ls 一下 checkpoint > 目录的大小。 > > > &gt; > > &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; > > > 另外有一个问题还需要回答一下,你的处理速度大概是多少,state 的更新频率能否评估一下呢? > > > &gt; &amp;gt; > > > &gt; &amp;gt; Best, > > > &gt; &amp;gt; Congxian > > > &gt; &amp;gt; > > > &gt; &amp;gt; > > > &gt; &amp;gt; 鱼子酱 < > > > &gt; > > > &gt; &amp;gt; 384939718@ > > > &gt; > > > &gt; &amp;gt;&amp;gt; 于2020年7月30日周四 上午10:43写道: > > > &gt; &amp;gt; > > > &gt; &amp;gt;&amp;gt; 感谢! > > > &gt; &amp;gt;&amp;gt; > > > &gt; &amp;gt;&amp;gt; > > flink1.11.1版本里面,我尝试了下面两种backend,目前运行了20多个小时, > > > &gt; &amp;gt;&amp;gt; 能够看到状态的大小在一个区间内波动,没有发现一直增长的情况了。 > > > &gt; &amp;gt;&amp;gt; StateBackend backend =new > > > &gt; &amp;gt;&amp;gt; > > > &gt; &amp;gt;&amp;gt; > > > &gt; > > > > > > RocksDBStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false); > > > &gt; &amp;gt;&amp;gt; StateBackend backend =new > > > &gt; &amp;gt;&amp;gt; > > > &gt; &amp;gt;&amp;gt; > > > &gt; > > > > > > FsStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false); > > > &gt; &amp;gt;&amp;gt; > > > &gt; &amp;gt;&amp;gt; > > > &gt; &amp;gt;&amp;gt; > > 这样看,有可能是RocksDBStateBackend增量模式这边可能存在一些问题。 > > > &gt; &amp;gt;&amp;gt; RocksDBStateBackend: > > > &gt; &amp;gt;&amp;gt; &amp;amp;lt; > > > &gt; > > > http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;gt > > > > > < > http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;gt> > >; > > ; > > > &gt; &amp;gt;&amp;gt; FsStateBackend: > > > &gt; &amp;gt;&amp;gt; &amp;amp;lt; > > > &gt; > > > http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;gt > > > > > < > http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;gt> > >; > > ; > > > &gt; &amp;gt;&amp;gt; > > > &gt; &amp;gt;&amp;gt; > > > &gt; &amp;gt;&amp;gt; > > > &gt; &amp;gt;&amp;gt; > > > &gt; &amp;gt;&amp;gt; -- > > > &gt; &amp;gt;&amp;gt; Sent from: > > http://apache-flink.147419.n8.nabble.com/ > > > <http://apache-flink.147419.n8.nabble.com/>>; &gt < > > http://apache-flink.147419.n8.nabble.com/&gt>; > > &amp;gt;&amp;gt; > > > &gt; > > > &gt; > > > &gt; > > > &gt; > > > &gt; > > > &gt; -- > > > &gt; Sent from: http://apache-flink.147419.n8.nabble.com/ > |
@鱼子酱
请问同样的作业,都使用RocksDB增量checkpoint,在1.8.2版本和1.11.1版本下的表现是否一致?还是说只有1.11.1版本下增量大小会单调增加? @op 类似的问题,请问使用FsStateBackend,是否在不同Flink版本下测试过?表现是否一致? 上述问题主要想确认一下新版本的表现和旧版本是否一致,如果不一致则有可能是新版本中引入的bug。谢谢。 Best Regards, Yu On Thu, 6 Aug 2020 at 13:52, Congxian Qiu <[hidden email]> wrote: > Hi > 我这边没有看到相关的附件,不确定是邮件客户端的问题还是其他什么,你那边能否再确认下 附件 的发送情况呢? > > Best, > Congxian > > > op <[hidden email]> 于2020年8月6日周四 上午10:36写道: > > > 感谢 , 截图和配置在附件里面 > > 我试试配置 RocksDB StateBackend > > > > > > ------------------ 原始邮件 ------------------ > > *发件人:* "user-zh" <[hidden email]>; > > *发送时间:* 2020年8月5日(星期三) 下午5:43 > > *收件人:* "user-zh"<[hidden email]>; > > *主题:* Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大 > > > > Hi > > RocksDB StateBackend 只需要在 flink-conf 中进行一下配置就行了[1]. > > > > 另外从你前面两份邮件看,我有些信息比较疑惑,你能否贴一下现在使用的 flink-conf,以及 checkpoint UI 的截图,以及 > HDFS > > 上 checkpoint 目录的截图 > > > > [1] > > > > > https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E8%AE%BE%E7%BD%AE-state-backend > > > > Best, > > Congxian > > > > > > op <[hidden email]> 于2020年8月5日周三 下午4:03写道: > > > > > 你好,ttl配置是 > > > val settings = > > EnvironmentSettings.newInstance().inStreamingMode().build() > > > val tableEnv = StreamTableEnvironment.create(bsEnv, settings) > > > val tConfig = tableEnv.getConfig > > > tConfig.setIdleStateRetentionTime(Time.minutes(1440), > Time.minutes(1450)) > > > > > > > > > 1)目前是有3个任务都是这种情况 > > > 2)目前集群没有RocksDB环境 > > > 谢谢 > > > ------------------ 原始邮件 ------------------ > > > 发件人: > > > "user-zh" > > > < > > > [hidden email]>; > > > 发送时间: 2020年8月5日(星期三) 下午3:30 > > > 收件人: "user-zh"<[hidden email]>; > > > > > > 主题: Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大 > > > > > > > > > > > > Hi op > > > 这个情况比较奇怪。我想确认下: > > > 1)你所有作业都遇到 checkpoint size 不断变大的情况,还是只有这个类型的作业遇到这个问题呢? > > > 2)是否尝试过 RocksDBStateBackend 呢(全量和增量)?情况如何呢 > > > > > > 另外,你 TTL 其他的配置是怎么设置的呢? > > > > > > 从原理上来说,checkpoint 就是 state 的一个快照,如果 checkpoint 越来越大,那么就是 state 越来越多。 > > > Best, > > > Congxian > > > > > > > > > op <[hidden email]> 于2020年8月5日周三 下午2:46写道: > > > > > > > &nbsp; &nbsp; > > > > > > > > > > 你好,我使用的是FsStateBackend&nbsp;状态后端,调到5分钟也是一样,看了下checkpoint花费的时间都在300ms左右,我们的业务数据量每天基本一样, > > > > &nbsp; > > > &nbsp;设置空闲状态清理时间为1440minute,按道理运行一天以后状态大小会趋于平稳,但是目前运行了5天, > > > > &nbsp; &nbsp;观察到的checkpoint shared 目录大小一直在增加,也确认过group > > > > by的key只会在处理当天出现,就是说这天的状态当天过后就会处于空闲状态, > > > > &nbsp; &nbsp;运行5天能满足清理条件 > > > > > > > > > > > > > > > > > > > > ------------------ 原始邮件 ------------------ > > > > 发件人: > > > > > > > > > > "user-zh" > > > > > > > > > > < > > > > [hidden email]&gt;; > > > > 发送时间:&nbsp;2020年8月3日(星期一) 下午5:50 > > > > 收件人:&nbsp;"user-zh"<[hidden email]&gt;; > > > > > > > > 主题:&nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 > 状态越来越大 > > > > > > > > > > > > > > > > Hi > > > > &nbsp;&nbsp; 能否把 checkpoint 的 interval 调长一点再看看是否稳定呢?从 > shared > > > > 目录的数据量看,有增长,后续基本持平。现在 > > > > Checkpointed Data Size 是增量的大小[1],而不是整个 checkpoint 的数据量的大小,如果 > > > checkpoint > > > > 之间,数据改动很多的话,这个值会变大 > > > > > > > > [1] > > > > > > > > > > > > > > https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7 > > > > > > > < > > > https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7> > > >; > > > Best, > > > > Congxian > > > > > > > > > > > > op <[hidden email]&gt; 于2020年8月3日周一 下午2:18写道: > > > > > > > > &gt; &amp;nbsp; &amp;nbsp; > > > > &gt; > > > 同问,我也遇到了状态越来越大的情况,使用的是1.11.0版本,用hdfs保存checkpoint,checkpoint间隔3分钟, > > > > &gt; 逻辑是按照 事件day 和 id 进行groupby > > > > &gt; 然后有十几个聚合指标,运行了7天左右,状态一直在增加,设置了失效时间,然后watermark看着也正常在走 > > > > &gt; tConfig.setIdleStateRetentionTime(Time.minutes(1440), > > > > &gt; Time.minutes(1440+10)) > > > > &gt; > > > > &gt; > > > > &gt; > > > > &gt; > > > > &gt; > > > ------------------&amp;nbsp;原始邮件&amp;nbsp;------------------ > > > > &gt; 发件人: > > > > > > > > > > &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; > > > > &nbsp; "user-zh" > > > > > > > > > > &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; > > > > &nbsp; < > > > > &gt; [hidden email]&amp;gt;; > > > > &gt; 发送时间:&amp;nbsp;2020年8月3日(星期一) 中午1:50 > > > > &gt; 收件人:&amp;nbsp;"user-zh"<[hidden email] > > > &amp;gt;; > > > > &gt; > > > > &gt; 主题:&amp;nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 > > 时间窗口 > > > 操作后 状态越来越大 > > > > &gt; > > > > &gt; > > > > &gt; > > > > &gt; hi,您好: > > > > &gt; 我改回增量模式重新收集了一些数据: > > > > &gt; 1、数据处理速度:3000条每秒,是测试环境的,压力比较稳定,几乎没有波动 > > > > &gt; 2、checkpoint是interval设置的是5秒 > > > > &gt; 3、目前这个作业是每分钟一个窗口 > > > > &gt; 4、并行度设置的1,使用on-yarn模式 > > > > &gt; > > > > &gt; 刚启动的时候,如下: > > > > &gt; < > > > http://apache-flink.147419.n8.nabble.com/file/t793/6.png&amp;gt; > > > > &gt; > > > > &gt; 18分钟后,如下: > > > > &gt; < > > > http://apache-flink.147419.n8.nabble.com/file/t793/9.png&amp;gt; > > > > &gt; > > > > &gt; checkpoints设置: > > > > &gt; < > > > http://apache-flink.147419.n8.nabble.com/file/t793/conf.png&amp;gt > ; > > > > &gt; > > > > &gt; hdfs上面大小: > > > > &gt; < > > > http://apache-flink.147419.n8.nabble.com/file/t793/hdfs.png&amp;gt > ; > > > > &gt; > > > > &gt; 页面上看到的大小: > > > > &gt; < > > > > > > > > > > http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;gt > > > > > > > < > > > http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;gt> > > >; > > > ; > > > > &gt; > > > > &gt; > > > > &gt; Congxian Qiu wrote > > > > &gt; &amp;gt; Hi&amp;nbsp;&amp;nbsp; 鱼子酱 > > > > &gt; > > > &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; > > > 能否把在使用增量 checkpoint > > > > 的模式下,截图看一下 checkpoint > > > > &gt; size 的走势呢?另外可以的话,也麻烦你在每次 > > > > &gt; &amp;gt; checkpoint 做完之后,到 hdfs 上 ls 一下 checkpoint > > 目录的大小。 > > > > &gt; > > > &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; > > > > 另外有一个问题还需要回答一下,你的处理速度大概是多少,state 的更新频率能否评估一下呢? > > > > &gt; &amp;gt; > > > > &gt; &amp;gt; Best, > > > > &gt; &amp;gt; Congxian > > > > &gt; &amp;gt; > > > > &gt; &amp;gt; > > > > &gt; &amp;gt; 鱼子酱 < > > > > &gt; > > > > &gt; &amp;gt; 384939718@ > > > > &gt; > > > > &gt; &amp;gt;&amp;gt; 于2020年7月30日周四 上午10:43写道: > > > > &gt; &amp;gt; > > > > &gt; &amp;gt;&amp;gt; 感谢! > > > > &gt; &amp;gt;&amp;gt; > > > > &gt; &amp;gt;&amp;gt; > > > flink1.11.1版本里面,我尝试了下面两种backend,目前运行了20多个小时, > > > > &gt; &amp;gt;&amp;gt; 能够看到状态的大小在一个区间内波动,没有发现一直增长的情况了。 > > > > &gt; &amp;gt;&amp;gt; StateBackend backend =new > > > > &gt; &amp;gt;&amp;gt; > > > > &gt; &amp;gt;&amp;gt; > > > > &gt; > > > > > > > > > > RocksDBStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false); > > > > &gt; &amp;gt;&amp;gt; StateBackend backend =new > > > > &gt; &amp;gt;&amp;gt; > > > > &gt; &amp;gt;&amp;gt; > > > > &gt; > > > > > > > > > > FsStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false); > > > > &gt; &amp;gt;&amp;gt; > > > > &gt; &amp;gt;&amp;gt; > > > > &gt; &amp;gt;&amp;gt; > > > 这样看,有可能是RocksDBStateBackend增量模式这边可能存在一些问题。 > > > > &gt; &amp;gt;&amp;gt; RocksDBStateBackend: > > > > &gt; &amp;gt;&amp;gt; &amp;amp;lt; > > > > &gt; > > > > > > http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;gt > > > > > > > < > > > http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;gt> > > >; > > > ; > > > > &gt; &amp;gt;&amp;gt; FsStateBackend: > > > > &gt; &amp;gt;&amp;gt; &amp;amp;lt; > > > > &gt; > > > > > > http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;gt > > > > > > > < > > > http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;gt> > > >; > > > ; > > > > &gt; &amp;gt;&amp;gt; > > > > &gt; &amp;gt;&amp;gt; > > > > &gt; &amp;gt;&amp;gt; > > > > &gt; &amp;gt;&amp;gt; > > > > &gt; &amp;gt;&amp;gt; -- > > > > &gt; &amp;gt;&amp;gt; Sent from: > > > http://apache-flink.147419.n8.nabble.com/ > > > > <http://apache-flink.147419.n8.nabble.com/>>; &gt < > > > http://apache-flink.147419.n8.nabble.com/&gt>; > > > &amp;gt;&amp;gt; > > > > &gt; > > > > &gt; > > > > &gt; > > > > &gt; > > > > &gt; > > > > &gt; -- > > > > &gt; Sent from: http://apache-flink.147419.n8.nabble.com/ > > > |
感谢回答
我之前用1.10也有同样的问题 ------------------ 原始邮件 ------------------ 发件人: "user-zh" <[hidden email]>; 发送时间: 2020年8月6日(星期四) 下午4:01 收件人: "user-zh"<[hidden email]>; 主题: Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大 @鱼子酱 请问同样的作业,都使用RocksDB增量checkpoint,在1.8.2版本和1.11.1版本下的表现是否一致?还是说只有1.11.1版本下增量大小会单调增加? @op 类似的问题,请问使用FsStateBackend,是否在不同Flink版本下测试过?表现是否一致? 上述问题主要想确认一下新版本的表现和旧版本是否一致,如果不一致则有可能是新版本中引入的bug。谢谢。 Best Regards, Yu On Thu, 6 Aug 2020 at 13:52, Congxian Qiu <[hidden email]> wrote: > Hi > 我这边没有看到相关的附件,不确定是邮件客户端的问题还是其他什么,你那边能否再确认下 附件 的发送情况呢? > > Best, > Congxian > > > op <[hidden email]> 于2020年8月6日周四 上午10:36写道: > > > 感谢 , 截图和配置在附件里面 > > 我试试配置 RocksDB StateBackend > > > > > > ------------------ 原始邮件 ------------------ > > *发件人:* "user-zh" <[hidden email]>; > > *发送时间:* 2020年8月5日(星期三) 下午5:43 > > *收件人:* "user-zh"<[hidden email]>; > > *主题:* Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大 > > > > Hi > > RocksDB StateBackend 只需要在 flink-conf 中进行一下配置就行了[1]. > > > > 另外从你前面两份邮件看,我有些信息比较疑惑,你能否贴一下现在使用的 flink-conf,以及 checkpoint UI 的截图,以及 > HDFS > > 上 checkpoint 目录的截图 > > > > [1] > > > > > https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E8%AE%BE%E7%BD%AE-state-backend > > > > Best, > > Congxian > > > > > > op <[hidden email]> 于2020年8月5日周三 下午4:03写道: > > > > > 你好,ttl配置是 > > > val settings = > > EnvironmentSettings.newInstance().inStreamingMode().build() > > > val tableEnv = StreamTableEnvironment.create(bsEnv, settings) > > > val tConfig = tableEnv.getConfig > > > tConfig.setIdleStateRetentionTime(Time.minutes(1440), > Time.minutes(1450)) > > > > > > > > > &nbsp; &nbsp; 1)目前是有3个任务都是这种情况 > > > &nbsp; &nbsp; 2)目前集群没有RocksDB环境 > > > 谢谢 > > > ------------------&nbsp;原始邮件&nbsp;------------------ > > > 发件人: > > > "user-zh" > > > < > > > [hidden email]&gt;; > > > 发送时间:&nbsp;2020年8月5日(星期三) 下午3:30 > > > 收件人:&nbsp;"user-zh"<[hidden email]&gt;; > > > > > > 主题:&nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大 > > > > > > > > > > > > Hi op > > > &nbsp;&nbsp; 这个情况比较奇怪。我想确认下: > > > &nbsp;&nbsp; 1)你所有作业都遇到 checkpoint size 不断变大的情况,还是只有这个类型的作业遇到这个问题呢? > > > &nbsp;&nbsp; 2)是否尝试过 RocksDBStateBackend 呢(全量和增量)?情况如何呢 > > > > > > &nbsp;&nbsp; 另外,你 TTL 其他的配置是怎么设置的呢? > > > > > > 从原理上来说,checkpoint 就是 state 的一个快照,如果 checkpoint 越来越大,那么就是 state 越来越多。 > > > Best, > > > Congxian > > > > > > > > > op <[hidden email]&gt; 于2020年8月5日周三 下午2:46写道: > > > > > > &gt; &amp;nbsp; &amp;nbsp; > > > &gt; > > > > > > 你好,我使用的是FsStateBackend&amp;nbsp;状态后端,调到5分钟也是一样,看了下checkpoint花费的时间都在300ms左右,我们的业务数据量每天基本一样, > > > &gt; &amp;nbsp; > > > &amp;nbsp;设置空闲状态清理时间为1440minute,按道理运行一天以后状态大小会趋于平稳,但是目前运行了5天, > > > &gt; &amp;nbsp; &amp;nbsp;观察到的checkpoint shared 目录大小一直在增加,也确认过group > > > &gt; by的key只会在处理当天出现,就是说这天的状态当天过后就会处于空闲状态, > > > &gt; &amp;nbsp; &amp;nbsp;运行5天能满足清理条件 > > > &gt; > > > &gt; > > > &gt; > > > &gt; > > > &gt; ------------------ 原始邮件 ------------------ > > > &gt; 发件人: > > > > > > &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; > > > "user-zh" > > > > > > &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; > > > < > > > &gt; [hidden email]&amp;gt;; > > > &gt; 发送时间:&amp;nbsp;2020年8月3日(星期一) 下午5:50 > > > &gt; 收件人:&amp;nbsp;"user-zh"<[hidden email]&amp;gt;; > > > &gt; > > > &gt; 主题:&amp;nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 > 状态越来越大 > > > &gt; > > > &gt; > > > &gt; > > > &gt; Hi > > > &gt; &amp;nbsp;&amp;nbsp; 能否把 checkpoint 的 interval 调长一点再看看是否稳定呢?从 > shared > > > &gt; 目录的数据量看,有增长,后续基本持平。现在 > > > &gt; Checkpointed Data Size 是增量的大小[1],而不是整个 checkpoint 的数据量的大小,如果 > > > checkpoint > > > &gt; 之间,数据改动很多的话,这个值会变大 > > > &gt; > > > &gt; [1] > > > &gt; > > > &gt; > > > > > > https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7 > > > &gt > > > < > > > https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7&gt > > >; > > > Best, > > > &gt; Congxian > > > &gt; > > > &gt; > > > &gt; op <[hidden email]&amp;gt; 于2020年8月3日周一 下午2:18写道: > > > &gt; > > > &gt; &amp;gt; &amp;amp;nbsp; &amp;amp;nbsp; > > > &gt; &amp;gt; > > > 同问,我也遇到了状态越来越大的情况,使用的是1.11.0版本,用hdfs保存checkpoint,checkpoint间隔3分钟, > > > &gt; &amp;gt; 逻辑是按照 事件day 和 id 进行groupby > > > &gt; &amp;gt; 然后有十几个聚合指标,运行了7天左右,状态一直在增加,设置了失效时间,然后watermark看着也正常在走 > > > &gt; &amp;gt; tConfig.setIdleStateRetentionTime(Time.minutes(1440), > > > &gt; &amp;gt; Time.minutes(1440+10)) > > > &gt; &amp;gt; > > > &gt; &amp;gt; > > > &gt; &amp;gt; > > > &gt; &amp;gt; > > > &gt; &amp;gt; > > > ------------------&amp;amp;nbsp;原始邮件&amp;amp;nbsp;------------------ > > > &gt; &amp;gt; 发件人: > > > &gt; > > > > > > &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; > > > &gt; &amp;nbsp; "user-zh" > > > &gt; > > > > > > &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; > > > &gt; &amp;nbsp; < > > > &gt; &amp;gt; [hidden email]&amp;amp;gt;; > > > &gt; &amp;gt; 发送时间:&amp;amp;nbsp;2020年8月3日(星期一) 中午1:50 > > > &gt; &amp;gt; 收件人:&amp;amp;nbsp;"user-zh"<[hidden email] > > > &amp;amp;gt;; > > > &gt; &amp;gt; > > > &gt; &amp;gt; 主题:&amp;amp;nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 > > 时间窗口 > > > 操作后 状态越来越大 > > > &gt; &amp;gt; > > > &gt; &amp;gt; > > > &gt; &amp;gt; > > > &gt; &amp;gt; hi,您好: > > > &gt; &amp;gt; 我改回增量模式重新收集了一些数据: > > > &gt; &amp;gt; 1、数据处理速度:3000条每秒,是测试环境的,压力比较稳定,几乎没有波动 > > > &gt; &amp;gt; 2、checkpoint是interval设置的是5秒 > > > &gt; &amp;gt; 3、目前这个作业是每分钟一个窗口 > > > &gt; &amp;gt; 4、并行度设置的1,使用on-yarn模式 > > > &gt; &amp;gt; > > > &gt; &amp;gt; 刚启动的时候,如下: > > > &gt; &amp;gt; < > > > http://apache-flink.147419.n8.nabble.com/file/t793/6.png&amp;amp;gt; > > > &gt; &amp;gt; > > > &gt; &amp;gt; 18分钟后,如下: > > > &gt; &amp;gt; < > > > http://apache-flink.147419.n8.nabble.com/file/t793/9.png&amp;amp;gt; > > > &gt; &amp;gt; > > > &gt; &amp;gt; checkpoints设置: > > > &gt; &amp;gt; < > > > http://apache-flink.147419.n8.nabble.com/file/t793/conf.png&amp;amp;gt > ; > > > &gt; &amp;gt; > > > &gt; &amp;gt; hdfs上面大小: > > > &gt; &amp;gt; < > > > http://apache-flink.147419.n8.nabble.com/file/t793/hdfs.png&amp;amp;gt > ; > > > &gt; &amp;gt; > > > &gt; &amp;gt; 页面上看到的大小: > > > &gt; &amp;gt; < > > > &gt; > > > > > > http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;amp;gt > > > &gt > > > < > > > http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;amp;gt&gt > > >; > > > ; > > > &gt; &amp;gt; > > > &gt; &amp;gt; > > > &gt; &amp;gt; Congxian Qiu wrote > > > &gt; &amp;gt; &amp;amp;gt; Hi&amp;amp;nbsp;&amp;amp;nbsp; 鱼子酱 > > > &gt; &amp;gt; > > > &amp;amp;gt;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp; > > > 能否把在使用增量 checkpoint > > > &gt; 的模式下,截图看一下 checkpoint > > > &gt; &amp;gt; size 的走势呢?另外可以的话,也麻烦你在每次 > > > &gt; &amp;gt; &amp;amp;gt; checkpoint 做完之后,到 hdfs 上 ls 一下 checkpoint > > 目录的大小。 > > > &gt; &amp;gt; > > > &amp;amp;gt;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp; > > > &gt; 另外有一个问题还需要回答一下,你的处理速度大概是多少,state 的更新频率能否评估一下呢? > > > &gt; &amp;gt; &amp;amp;gt; > > > &gt; &amp;gt; &amp;amp;gt; Best, > > > &gt; &amp;gt; &amp;amp;gt; Congxian > > > &gt; &amp;gt; &amp;amp;gt; > > > &gt; &amp;gt; &amp;amp;gt; > > > &gt; &amp;gt; &amp;amp;gt; 鱼子酱 < > > > &gt; &amp;gt; > > > &gt; &amp;gt; &amp;amp;gt; 384939718@ > > > &gt; &amp;gt; > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; 于2020年7月30日周四 上午10:43写道: > > > &gt; &amp;gt; &amp;amp;gt; > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; 感谢! > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > flink1.11.1版本里面,我尝试了下面两种backend,目前运行了20多个小时, > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; 能够看到状态的大小在一个区间内波动,没有发现一直增长的情况了。 > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; StateBackend backend =new > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > &gt; &amp;gt; > > > &gt; > > > > > > RocksDBStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false); > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; StateBackend backend =new > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > &gt; &amp;gt; > > > &gt; > > > > > > FsStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false); > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > 这样看,有可能是RocksDBStateBackend增量模式这边可能存在一些问题。 > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; RocksDBStateBackend: > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; &amp;amp;amp;lt; > > > &gt; &amp;gt; > > > > > > http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;amp;gt > > > &gt > > > < > > > http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;amp;gt&gt > > >; > > > ; > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; FsStateBackend: > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; &amp;amp;amp;lt; > > > &gt; &amp;gt; > > > > > > http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;amp;gt > > > &gt > > > < > > > http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;amp;gt&gt > > >; > > > ; > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; -- > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; Sent from: > > > http://apache-flink.147419.n8.nabble.com/ > > > &gt <http://apache-flink.147419.n8.nabble.com/&gt>; &amp;gt < > > > http://apache-flink.147419.n8.nabble.com/&amp;gt&gt;; > > > &amp;amp;gt;&amp;amp;gt; > > > &gt; &amp;gt; > > > &gt; &amp;gt; > > > &gt; &amp;gt; > > > &gt; &amp;gt; > > > &gt; &amp;gt; > > > &gt; &amp;gt; -- > > > &gt; &amp;gt; Sent from: http://apache-flink.147419.n8.nabble.com/ > > > |
看到生产上使用的还是1.8.2版本,请问同样的作业使用1.8.2的表现是怎样的?
Best Regards, Yu On Thu, 6 Aug 2020 at 16:29, op <[hidden email]> wrote: > 感谢回答 > 我之前用1.10也有同样的问题 > > > > > ------------------ 原始邮件 ------------------ > 发件人: > "user-zh" > < > [hidden email]>; > 发送时间: 2020年8月6日(星期四) 下午4:01 > 收件人: "user-zh"<[hidden email]>; > > 主题: Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大 > > > > @鱼子酱 > > 请问同样的作业,都使用RocksDB增量checkpoint,在1.8.2版本和1.11.1版本下的表现是否一致?还是说只有1.11.1版本下增量大小会单调增加? > > @op 类似的问题,请问使用FsStateBackend,是否在不同Flink版本下测试过?表现是否一致? > > 上述问题主要想确认一下新版本的表现和旧版本是否一致,如果不一致则有可能是新版本中引入的bug。谢谢。 > > Best Regards, > Yu > > > On Thu, 6 Aug 2020 at 13:52, Congxian Qiu <[hidden email]> > wrote: > > > Hi > > 我这边没有看到相关的附件,不确定是邮件客户端的问题还是其他什么,你那边能否再确认下 附件 > 的发送情况呢? > > > > Best, > > Congxian > > > > > > op <[hidden email]> 于2020年8月6日周四 上午10:36写道: > > > > > 感谢 , 截图和配置在附件里面 > > > 我试试配置 RocksDB StateBackend > > > > > > > > > ------------------ 原始邮件 ------------------ > > > *发件人:* "user-zh" <[hidden email]>; > > > *发送时间:* 2020年8月5日(星期三) 下午5:43 > > > *收件人:* "user-zh"<[hidden email]>; > > > *主题:* Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大 > > > > > > Hi > > > RocksDB StateBackend 只需要在 flink-conf 中进行一下配置就行了[1]. > > > > > > 另外从你前面两份邮件看,我有些信息比较疑惑,你能否贴一下现在使用的 flink-conf,以及 > checkpoint UI 的截图,以及 > > HDFS > > > 上 checkpoint 目录的截图 > > > > > > [1] > > > > > > > > > https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E8%AE%BE%E7%BD%AE-state-backend > > > <https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E8%AE%BE%E7%BD%AE-state-backend>>; > > > > > Best, > > > Congxian > > > > > > > > > op <[hidden email]> 于2020年8月5日周三 下午4:03写道: > > > > > > > 你好,ttl配置是 > > > > val settings = > > > EnvironmentSettings.newInstance().inStreamingMode().build() > > > > val tableEnv = StreamTableEnvironment.create(bsEnv, > settings) > > > > val tConfig = tableEnv.getConfig > > > > tConfig.setIdleStateRetentionTime(Time.minutes(1440), > > Time.minutes(1450)) > > > > > > > > > > > > &nbsp; &nbsp; 1)目前是有3个任务都是这种情况 > > > > &nbsp; &nbsp; 2)目前集群没有RocksDB环境 > > > > 谢谢 > > > > ------------------&nbsp;原始邮件&nbsp;------------------ > > > > 发件人: > > > > > > "user-zh" > > > > > > < > > > > [hidden email]&gt;; > > > > 发送时间:&nbsp;2020年8月5日(星期三) 下午3:30 > > > > 收件人:&nbsp;"user-zh"<[hidden email]&gt;; > > > > > > > > 主题:&nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 > 操作后 状态越来越大 > > > > > > > > > > > > > > > > Hi op > > > > &nbsp;&nbsp; 这个情况比较奇怪。我想确认下: > > > > &nbsp;&nbsp; 1)你所有作业都遇到 checkpoint size > 不断变大的情况,还是只有这个类型的作业遇到这个问题呢? > > > > &nbsp;&nbsp; 2)是否尝试过 RocksDBStateBackend > 呢(全量和增量)?情况如何呢 > > > > > > > > &nbsp;&nbsp; 另外,你 TTL 其他的配置是怎么设置的呢? > > > > > > > > 从原理上来说,checkpoint 就是 state 的一个快照,如果 checkpoint 越来越大,那么就是 > state 越来越多。 > > > > Best, > > > > Congxian > > > > > > > > > > > > op <[hidden email]&gt; 于2020年8月5日周三 下午2:46写道: > > > > > > > > &gt; &amp;nbsp; &amp;nbsp; > > > > &gt; > > > > > > > > > > 你好,我使用的是FsStateBackend&amp;nbsp;状态后端,调到5分钟也是一样,看了下checkpoint花费的时间都在300ms左右,我们的业务数据量每天基本一样, > > > > &gt; &amp;nbsp; > > > > > &amp;nbsp;设置空闲状态清理时间为1440minute,按道理运行一天以后状态大小会趋于平稳,但是目前运行了5天, > > > > &gt; &amp;nbsp; &amp;nbsp;观察到的checkpoint shared > 目录大小一直在增加,也确认过group > > > > &gt; by的key只会在处理当天出现,就是说这天的状态当天过后就会处于空闲状态, > > > > &gt; &amp;nbsp; &amp;nbsp;运行5天能满足清理条件 > > > > &gt; > > > > &gt; > > > > &gt; > > > > &gt; > > > > &gt; ------------------ 原始邮件 ------------------ > > > > &gt; 发件人: > > > > > > > > > > &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; > > > > "user-zh" > > > > > > > > > > &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; > > > > < > > > > &gt; [hidden email]&amp;gt;; > > > > &gt; 发送时间:&amp;nbsp;2020年8月3日(星期一) 下午5:50 > > > > &gt; 收件人:&amp;nbsp;"user-zh"< > [hidden email]&amp;gt;; > > > > &gt; > > > > &gt; 主题:&amp;nbsp;Re: flink1.10.1/1.11.1 使用sql > 进行group 和 时间窗口 操作后 > > 状态越来越大 > > > > &gt; > > > > &gt; > > > > &gt; > > > > &gt; Hi > > > > &gt; &amp;nbsp;&amp;nbsp; 能否把 checkpoint 的 > interval 调长一点再看看是否稳定呢?从 > > shared > > > > &gt; 目录的数据量看,有增长,后续基本持平。现在 > > > > &gt; Checkpointed Data Size 是增量的大小[1],而不是整个 checkpoint > 的数据量的大小,如果 > > > > checkpoint > > > > &gt; 之间,数据改动很多的话,这个值会变大 > > > > &gt; > > > > &gt; [1] > > > > &gt; > > > > &gt; > > > > > > > > > > https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7 > > > <https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7>>; > > > &gt > > > > < > > > > > > https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7&gt > > > <https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7&gt>>; > > >; > > > > Best, > > > > &gt; Congxian > > > > &gt; > > > > &gt; > > > > &gt; op <[hidden email]&amp;gt; 于2020年8月3日周一 > 下午2:18写道: > > > > &gt; > > > > &gt; &amp;gt; &amp;amp;nbsp; &amp;amp;nbsp; > > > > &gt; &amp;gt; > > > > > 同问,我也遇到了状态越来越大的情况,使用的是1.11.0版本,用hdfs保存checkpoint,checkpoint间隔3分钟, > > > > &gt; &amp;gt; 逻辑是按照 事件day 和 id 进行groupby > > > > &gt; &amp;gt; > 然后有十几个聚合指标,运行了7天左右,状态一直在增加,设置了失效时间,然后watermark看着也正常在走 > > > > &gt; &amp;gt; > tConfig.setIdleStateRetentionTime(Time.minutes(1440), > > > > &gt; &amp;gt; Time.minutes(1440+10)) > > > > &gt; &amp;gt; > > > > &gt; &amp;gt; > > > > &gt; &amp;gt; > > > > &gt; &amp;gt; > > > > &gt; &amp;gt; > > > > > ------------------&amp;amp;nbsp;原始邮件&amp;amp;nbsp;------------------ > > > > &gt; &amp;gt; 发件人: > > > > &gt; > > > > > > > > > > &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; > > > > &gt; &amp;nbsp; "user-zh" > > > > &gt; > > > > > > > > > > &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; > > > > &gt; &amp;nbsp; < > > > > &gt; &amp;gt; [hidden email]&amp;amp;gt;; > > > > &gt; &amp;gt; 发送时间:&amp;amp;nbsp;2020年8月3日(星期一) > 中午1:50 > > > > &gt; &amp;gt; 收件人:&amp;amp;nbsp;"user-zh"< > [hidden email] > > > > &amp;amp;gt;; > > > > &gt; &amp;gt; > > > > &gt; &amp;gt; 主题:&amp;amp;nbsp;Re: > flink1.10.1/1.11.1 使用sql 进行group 和 > > > 时间窗口 > > > > 操作后 状态越来越大 > > > > &gt; &amp;gt; > > > > &gt; &amp;gt; > > > > &gt; &amp;gt; > > > > &gt; &amp;gt; hi,您好: > > > > &gt; &amp;gt; 我改回增量模式重新收集了一些数据: > > > > &gt; &amp;gt; 1、数据处理速度:3000条每秒,是测试环境的,压力比较稳定,几乎没有波动 > > > > &gt; &amp;gt; 2、checkpoint是interval设置的是5秒 > > > > &gt; &amp;gt; 3、目前这个作业是每分钟一个窗口 > > > > &gt; &amp;gt; 4、并行度设置的1,使用on-yarn模式 > > > > &gt; &amp;gt; > > > > &gt; &amp;gt; 刚启动的时候,如下: > > > > &gt; &amp;gt; < > > > > > http://apache-flink.147419.n8.nabble.com/file/t793/6.png&amp;amp;gt; > > > > &gt; &amp;gt; > > > > &gt; &amp;gt; 18分钟后,如下: > > > > &gt; &amp;gt; < > > > > > http://apache-flink.147419.n8.nabble.com/file/t793/9.png&amp;amp;gt; > > > > &gt; &amp;gt; > > > > &gt; &amp;gt; checkpoints设置: > > > > &gt; &amp;gt; < > > > > > http://apache-flink.147419.n8.nabble.com/file/t793/conf.png&amp;amp;gt > > > <http://apache-flink.147419.n8.nabble.com/file/t793/conf.png&amp;amp;gt>>; > ; > > > > &gt; &amp;gt; > > > > &gt; &amp;gt; hdfs上面大小: > > > > &gt; &amp;gt; < > > > > > http://apache-flink.147419.n8.nabble.com/file/t793/hdfs.png&amp;amp;gt > > > <http://apache-flink.147419.n8.nabble.com/file/t793/hdfs.png&amp;amp;gt>>; > ; > > > > &gt; &amp;gt; > > > > &gt; &amp;gt; 页面上看到的大小: > > > > &gt; &amp;gt; < > > > > &gt; > > > > > > > > > > http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;amp;gt > > > <http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;amp;gt>>; > > > &gt > > > > < > > > > > > http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;amp;gt&gt > > > <http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;amp;gt&gt>>; > > >; > > > > ; > > > > &gt; &amp;gt; > > > > &gt; &amp;gt; > > > > &gt; &amp;gt; Congxian Qiu wrote > > > > &gt; &amp;gt; &amp;amp;gt; > Hi&amp;amp;nbsp;&amp;amp;nbsp; 鱼子酱 > > > > &gt; &amp;gt; > > > > > &amp;amp;gt;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp; > > > > 能否把在使用增量 checkpoint > > > > &gt; 的模式下,截图看一下 checkpoint > > > > &gt; &amp;gt; size 的走势呢?另外可以的话,也麻烦你在每次 > > > > &gt; &amp;gt; &amp;amp;gt; checkpoint 做完之后,到 > hdfs 上 ls 一下 checkpoint > > > 目录的大小。 > > > > &gt; &amp;gt; > > > > > &amp;amp;gt;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp; > > > > &gt; 另外有一个问题还需要回答一下,你的处理速度大概是多少,state 的更新频率能否评估一下呢? > > > > &gt; &amp;gt; &amp;amp;gt; > > > > &gt; &amp;gt; &amp;amp;gt; Best, > > > > &gt; &amp;gt; &amp;amp;gt; Congxian > > > > &gt; &amp;gt; &amp;amp;gt; > > > > &gt; &amp;gt; &amp;amp;gt; > > > > &gt; &amp;gt; &amp;amp;gt; 鱼子酱 < > > > > &gt; &amp;gt; > > > > &gt; &amp;gt; &amp;amp;gt; 384939718@ > > > > &gt; &amp;gt; > > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > 于2020年7月30日周四 上午10:43写道: > > > > &gt; &amp;gt; &amp;amp;gt; > > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; 感谢! > > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > > flink1.11.1版本里面,我尝试了下面两种backend,目前运行了20多个小时, > > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > 能够看到状态的大小在一个区间内波动,没有发现一直增长的情况了。 > > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > StateBackend backend =new > > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > > &gt; &amp;gt; > > > > &gt; > > > > > > > > > > RocksDBStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false); > > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > StateBackend backend =new > > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > > &gt; &amp;gt; > > > > &gt; > > > > > > > > > > FsStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false); > > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > > 这样看,有可能是RocksDBStateBackend增量模式这边可能存在一些问题。 > > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > RocksDBStateBackend: > > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > &amp;amp;amp;lt; > > > > &gt; &amp;gt; > > > > > > > > > > http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;amp;gt > > > <http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;amp;gt>>; > > > &gt > > > > < > > > > > > http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;amp;gt&gt > > > <http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;amp;gt&gt>>; > > >; > > > > ; > > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > FsStateBackend: > > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > &amp;amp;amp;lt; > > > > &gt; &amp;gt; > > > > > > > > > > http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;amp;gt > > > <http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;amp;gt>>; > > > &gt > > > > < > > > > > > http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;amp;gt&gt > > > <http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;amp;gt&gt>>; > > >; > > > > ; > > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; -- > > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; Sent > from: > > > > http://apache-flink.147419.n8.nabble.com/ > > > > &gt < > http://apache-flink.147419.n8.nabble.com/&gt>; &amp;gt < > > > > http://apache-flink.147419.n8.nabble.com/&amp;gt&gt > ;; > > > > &amp;amp;gt;&amp;amp;gt; > > > > &gt; &amp;gt; > > > > &gt; &amp;gt; > > > > &gt; &amp;gt; > > > > &gt; &amp;gt; > > > > &gt; &amp;gt; > > > > &gt; &amp;gt; -- > > > > &gt; &amp;gt; Sent from: > http://apache-flink.147419.n8.nabble.com/ > > <http://apache-flink.147419.n8.nabble.com/>>; > > > |
In reply to this post by Congxian Qiu
Hi
1. 我将原来程序里面的minibatch相关的配置删掉,现在使用FsStateBackend空闲状态能定期清除了,不知道这是不是一个bug,删掉的是以下配置 val config = tConfig.getConfiguration() config.setString("table.exec.mini-batch.enabled", "true") config.setString("table.exec.mini-batch.allow-latency", "3s") config.setString("table.exec.mini-batch.size", "10") 2.使用RocksDBStateBackend时上面的配置不影响空闲状态清理 ------------------ 原始邮件 ------------------ 发件人: "user-zh" <[hidden email]>; 发送时间: 2020年8月6日(星期四) 中午1:51 收件人: "user-zh"<[hidden email]>; 主题: Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大 Hi 我这边没有看到相关的附件,不确定是邮件客户端的问题还是其他什么,你那边能否再确认下 附件 的发送情况呢? Best, Congxian op <[hidden email]> 于2020年8月6日周四 上午10:36写道: > 感谢 , 截图和配置在附件里面 > 我试试配置 RocksDB StateBackend > > > ------------------ 原始邮件 ------------------ > *发件人:* "user-zh" <[hidden email]>; > *发送时间:* 2020年8月5日(星期三) 下午5:43 > *收件人:* "user-zh"<[hidden email]>; > *主题:* Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大 > > Hi > RocksDB StateBackend 只需要在 flink-conf 中进行一下配置就行了[1]. > > 另外从你前面两份邮件看,我有些信息比较疑惑,你能否贴一下现在使用的 flink-conf,以及 checkpoint UI 的截图,以及 HDFS > 上 checkpoint 目录的截图 > > [1] > > https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E8%AE%BE%E7%BD%AE-state-backend > > Best, > Congxian > > > op <[hidden email]> 于2020年8月5日周三 下午4:03写道: > > > 你好,ttl配置是 > > val settings = > EnvironmentSettings.newInstance().inStreamingMode().build() > > val tableEnv = StreamTableEnvironment.create(bsEnv, settings) > > val tConfig = tableEnv.getConfig > > tConfig.setIdleStateRetentionTime(Time.minutes(1440), Time.minutes(1450)) > > > > > > &nbsp; &nbsp; 1)目前是有3个任务都是这种情况 > > &nbsp; &nbsp; 2)目前集群没有RocksDB环境 > > 谢谢 > > ------------------&nbsp;原始邮件&nbsp;------------------ > > 发件人: > > "user-zh" > > < > > [hidden email]&gt;; > > 发送时间:&nbsp;2020年8月5日(星期三) 下午3:30 > > 收件人:&nbsp;"user-zh"<[hidden email]&gt;; > > > > 主题:&nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大 > > > > > > > > Hi op > > &nbsp;&nbsp; 这个情况比较奇怪。我想确认下: > > &nbsp;&nbsp; 1)你所有作业都遇到 checkpoint size 不断变大的情况,还是只有这个类型的作业遇到这个问题呢? > > &nbsp;&nbsp; 2)是否尝试过 RocksDBStateBackend 呢(全量和增量)?情况如何呢 > > > > &nbsp;&nbsp; 另外,你 TTL 其他的配置是怎么设置的呢? > > > > 从原理上来说,checkpoint 就是 state 的一个快照,如果 checkpoint 越来越大,那么就是 state 越来越多。 > > Best, > > Congxian > > > > > > op <[hidden email]&gt; 于2020年8月5日周三 下午2:46写道: > > > > &gt; &amp;nbsp; &amp;nbsp; > > &gt; > > > 你好,我使用的是FsStateBackend&amp;nbsp;状态后端,调到5分钟也是一样,看了下checkpoint花费的时间都在300ms左右,我们的业务数据量每天基本一样, > > &gt; &amp;nbsp; > > &amp;nbsp;设置空闲状态清理时间为1440minute,按道理运行一天以后状态大小会趋于平稳,但是目前运行了5天, > > &gt; &amp;nbsp; &amp;nbsp;观察到的checkpoint shared 目录大小一直在增加,也确认过group > > &gt; by的key只会在处理当天出现,就是说这天的状态当天过后就会处于空闲状态, > > &gt; &amp;nbsp; &amp;nbsp;运行5天能满足清理条件 > > &gt; > > &gt; > > &gt; > > &gt; > > &gt; ------------------ 原始邮件 ------------------ > > &gt; 发件人: > > > &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; > > "user-zh" > > > &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; > > < > > &gt; [hidden email]&amp;gt;; > > &gt; 发送时间:&amp;nbsp;2020年8月3日(星期一) 下午5:50 > > &gt; 收件人:&amp;nbsp;"user-zh"<[hidden email]&amp;gt;; > > &gt; > > &gt; 主题:&amp;nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大 > > &gt; > > &gt; > > &gt; > > &gt; Hi > > &gt; &amp;nbsp;&amp;nbsp; 能否把 checkpoint 的 interval 调长一点再看看是否稳定呢?从 shared > > &gt; 目录的数据量看,有增长,后续基本持平。现在 > > &gt; Checkpointed Data Size 是增量的大小[1],而不是整个 checkpoint 的数据量的大小,如果 > > checkpoint > > &gt; 之间,数据改动很多的话,这个值会变大 > > &gt; > > &gt; [1] > > &gt; > > &gt; > > > https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7 > > &gt > > < > https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7&gt > >; > > Best, > > &gt; Congxian > > &gt; > > &gt; > > &gt; op <[hidden email]&amp;gt; 于2020年8月3日周一 下午2:18写道: > > &gt; > > &gt; &amp;gt; &amp;amp;nbsp; &amp;amp;nbsp; > > &gt; &amp;gt; > > 同问,我也遇到了状态越来越大的情况,使用的是1.11.0版本,用hdfs保存checkpoint,checkpoint间隔3分钟, > > &gt; &amp;gt; 逻辑是按照 事件day 和 id 进行groupby > > &gt; &amp;gt; 然后有十几个聚合指标,运行了7天左右,状态一直在增加,设置了失效时间,然后watermark看着也正常在走 > > &gt; &amp;gt; tConfig.setIdleStateRetentionTime(Time.minutes(1440), > > &gt; &amp;gt; Time.minutes(1440+10)) > > &gt; &amp;gt; > > &gt; &amp;gt; > > &gt; &amp;gt; > > &gt; &amp;gt; > > &gt; &amp;gt; > > ------------------&amp;amp;nbsp;原始邮件&amp;amp;nbsp;------------------ > > &gt; &amp;gt; 发件人: > > &gt; > > > &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; > > &gt; &amp;nbsp; "user-zh" > > &gt; > > > &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; > > &gt; &amp;nbsp; < > > &gt; &amp;gt; [hidden email]&amp;amp;gt;; > > &gt; &amp;gt; 发送时间:&amp;amp;nbsp;2020年8月3日(星期一) 中午1:50 > > &gt; &amp;gt; 收件人:&amp;amp;nbsp;"user-zh"<[hidden email] > > &amp;amp;gt;; > > &gt; &amp;gt; > > &gt; &amp;gt; 主题:&amp;amp;nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 > 时间窗口 > > 操作后 状态越来越大 > > &gt; &amp;gt; > > &gt; &amp;gt; > > &gt; &amp;gt; > > &gt; &amp;gt; hi,您好: > > &gt; &amp;gt; 我改回增量模式重新收集了一些数据: > > &gt; &amp;gt; 1、数据处理速度:3000条每秒,是测试环境的,压力比较稳定,几乎没有波动 > > &gt; &amp;gt; 2、checkpoint是interval设置的是5秒 > > &gt; &amp;gt; 3、目前这个作业是每分钟一个窗口 > > &gt; &amp;gt; 4、并行度设置的1,使用on-yarn模式 > > &gt; &amp;gt; > > &gt; &amp;gt; 刚启动的时候,如下: > > &gt; &amp;gt; < > > http://apache-flink.147419.n8.nabble.com/file/t793/6.png&amp;amp;gt; > > &gt; &amp;gt; > > &gt; &amp;gt; 18分钟后,如下: > > &gt; &amp;gt; < > > http://apache-flink.147419.n8.nabble.com/file/t793/9.png&amp;amp;gt; > > &gt; &amp;gt; > > &gt; &amp;gt; checkpoints设置: > > &gt; &amp;gt; < > > http://apache-flink.147419.n8.nabble.com/file/t793/conf.png&amp;amp;gt; > > &gt; &amp;gt; > > &gt; &amp;gt; hdfs上面大小: > > &gt; &amp;gt; < > > http://apache-flink.147419.n8.nabble.com/file/t793/hdfs.png&amp;amp;gt; > > &gt; &amp;gt; > > &gt; &amp;gt; 页面上看到的大小: > > &gt; &amp;gt; < > > &gt; > > > http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;amp;gt > > &gt > > < > http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;amp;gt&gt > >; > > ; > > &gt; &amp;gt; > > &gt; &amp;gt; > > &gt; &amp;gt; Congxian Qiu wrote > > &gt; &amp;gt; &amp;amp;gt; Hi&amp;amp;nbsp;&amp;amp;nbsp; 鱼子酱 > > &gt; &amp;gt; > > &amp;amp;gt;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp; > > 能否把在使用增量 checkpoint > > &gt; 的模式下,截图看一下 checkpoint > > &gt; &amp;gt; size 的走势呢?另外可以的话,也麻烦你在每次 > > &gt; &amp;gt; &amp;amp;gt; checkpoint 做完之后,到 hdfs 上 ls 一下 checkpoint > 目录的大小。 > > &gt; &amp;gt; > > &amp;amp;gt;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp; > > &gt; 另外有一个问题还需要回答一下,你的处理速度大概是多少,state 的更新频率能否评估一下呢? > > &gt; &amp;gt; &amp;amp;gt; > > &gt; &amp;gt; &amp;amp;gt; Best, > > &gt; &amp;gt; &amp;amp;gt; Congxian > > &gt; &amp;gt; &amp;amp;gt; > > &gt; &amp;gt; &amp;amp;gt; > > &gt; &amp;gt; &amp;amp;gt; 鱼子酱 < > > &gt; &amp;gt; > > &gt; &amp;gt; &amp;amp;gt; 384939718@ > > &gt; &amp;gt; > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; 于2020年7月30日周四 上午10:43写道: > > &gt; &amp;gt; &amp;amp;gt; > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; 感谢! > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > flink1.11.1版本里面,我尝试了下面两种backend,目前运行了20多个小时, > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; 能够看到状态的大小在一个区间内波动,没有发现一直增长的情况了。 > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; StateBackend backend =new > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > &gt; &amp;gt; > > &gt; > > > RocksDBStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false); > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; StateBackend backend =new > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > &gt; &amp;gt; > > &gt; > > > FsStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false); > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > 这样看,有可能是RocksDBStateBackend增量模式这边可能存在一些问题。 > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; RocksDBStateBackend: > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; &amp;amp;amp;lt; > > &gt; &amp;gt; > > > http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;amp;gt > > &gt > > < > http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;amp;gt&gt > >; > > ; > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; FsStateBackend: > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; &amp;amp;amp;lt; > > &gt; &amp;gt; > > > http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;amp;gt > > &gt > > < > http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;amp;gt&gt > >; > > ; > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; -- > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; Sent from: > > http://apache-flink.147419.n8.nabble.com/ > > &gt <http://apache-flink.147419.n8.nabble.com/&gt>; &amp;gt < > > http://apache-flink.147419.n8.nabble.com/&amp;gt&gt;; > > &amp;amp;gt;&amp;amp;gt; > > &gt; &amp;gt; > > &gt; &amp;gt; > > &gt; &amp;gt; > > &gt; &amp;gt; > > &gt; &amp;gt; > > &gt; &amp;gt; -- > > &gt; &amp;gt; Sent from: http://apache-flink.147419.n8.nabble.com/ > |
Hi op
或许你可以把现在的问题整理一下,单独发一个邮件,看你的描述这个问题和 sql 中的 minibatch 有关系 Best, Congxian op <[hidden email]> 于2020年8月7日周五 下午2:13写道: > Hi > 1. > 我将原来程序里面的minibatch相关的配置删掉,现在使用FsStateBackend空闲状态能定期清除了,不知道这是不是一个bug,删掉的是以下配置 > val config = tConfig.getConfiguration() > config.setString("table.exec.mini-batch.enabled", "true") > config.setString("table.exec.mini-batch.allow-latency", "3s") > config.setString("table.exec.mini-batch.size", "10") > 2.使用RocksDBStateBackend时上面的配置不影响空闲状态清理 > > > ------------------ 原始邮件 ------------------ > 发件人: > "user-zh" > < > [hidden email]>; > 发送时间: 2020年8月6日(星期四) 中午1:51 > 收件人: "user-zh"<[hidden email]>; > > 主题: Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大 > > > > Hi > 我这边没有看到相关的附件,不确定是邮件客户端的问题还是其他什么,你那边能否再确认下 附件 的发送情况呢? > > Best, > Congxian > > > op <[hidden email]> 于2020年8月6日周四 上午10:36写道: > > > 感谢 , 截图和配置在附件里面 > > 我试试配置 RocksDB StateBackend > > > > > > ------------------ 原始邮件 ------------------ > > *发件人:* "user-zh" <[hidden email]>; > > *发送时间:* 2020年8月5日(星期三) 下午5:43 > > *收件人:* "user-zh"<[hidden email]>; > > *主题:* Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大 > > > > Hi > > RocksDB StateBackend 只需要在 flink-conf 中进行一下配置就行了[1]. > > > > 另外从你前面两份邮件看,我有些信息比较疑惑,你能否贴一下现在使用的 flink-conf,以及 > checkpoint UI 的截图,以及 HDFS > > 上 checkpoint 目录的截图 > > > > [1] > > > > > https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E8%AE%BE%E7%BD%AE-state-backend > > > <https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E8%AE%BE%E7%BD%AE-state-backend>> > ; > > Best, > > Congxian > > > > > > op <[hidden email]> 于2020年8月5日周三 下午4:03写道: > > > > > 你好,ttl配置是 > > > val settings = > > EnvironmentSettings.newInstance().inStreamingMode().build() > > > val tableEnv = StreamTableEnvironment.create(bsEnv, settings) > > > val tConfig = tableEnv.getConfig > > > tConfig.setIdleStateRetentionTime(Time.minutes(1440), > Time.minutes(1450)) > > > > > > > > > &nbsp; &nbsp; 1)目前是有3个任务都是这种情况 > > > &nbsp; &nbsp; 2)目前集群没有RocksDB环境 > > > 谢谢 > > > ------------------&nbsp;原始邮件&nbsp;------------------ > > > 发件人: > > > > > "user-zh" > > > > > < > > > [hidden email]&gt;; > > > 发送时间:&nbsp;2020年8月5日(星期三) 下午3:30 > > > 收件人:&nbsp;"user-zh"<[hidden email]&gt;; > > > > > > 主题:&nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 > 状态越来越大 > > > > > > > > > > > > Hi op > > > &nbsp;&nbsp; 这个情况比较奇怪。我想确认下: > > > &nbsp;&nbsp; 1)你所有作业都遇到 checkpoint size > 不断变大的情况,还是只有这个类型的作业遇到这个问题呢? > > > &nbsp;&nbsp; 2)是否尝试过 RocksDBStateBackend 呢(全量和增量)?情况如何呢 > > > > > > &nbsp;&nbsp; 另外,你 TTL 其他的配置是怎么设置的呢? > > > > > > 从原理上来说,checkpoint 就是 state 的一个快照,如果 checkpoint 越来越大,那么就是 state > 越来越多。 > > > Best, > > > Congxian > > > > > > > > > op <[hidden email]&gt; 于2020年8月5日周三 下午2:46写道: > > > > > > &gt; &amp;nbsp; &amp;nbsp; > > > &gt; > > > > > > 你好,我使用的是FsStateBackend&amp;nbsp;状态后端,调到5分钟也是一样,看了下checkpoint花费的时间都在300ms左右,我们的业务数据量每天基本一样, > > > &gt; &amp;nbsp; > > > &amp;nbsp;设置空闲状态清理时间为1440minute,按道理运行一天以后状态大小会趋于平稳,但是目前运行了5天, > > > &gt; &amp;nbsp; &amp;nbsp;观察到的checkpoint shared > 目录大小一直在增加,也确认过group > > > &gt; by的key只会在处理当天出现,就是说这天的状态当天过后就会处于空闲状态, > > > &gt; &amp;nbsp; &amp;nbsp;运行5天能满足清理条件 > > > &gt; > > > &gt; > > > &gt; > > > &gt; > > > &gt; ------------------ 原始邮件 ------------------ > > > &gt; 发件人: > > > > > > &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; > > > "user-zh" > > > > > > &gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; > > > < > > > &gt; [hidden email]&amp;gt;; > > > &gt; 发送时间:&amp;nbsp;2020年8月3日(星期一) 下午5:50 > > > &gt; 收件人:&amp;nbsp;"user-zh"<[hidden email] > &amp;gt;; > > > &gt; > > > &gt; 主题:&amp;nbsp;Re: flink1.10.1/1.11.1 使用sql 进行group 和 > 时间窗口 操作后 状态越来越大 > > > &gt; > > > &gt; > > > &gt; > > > &gt; Hi > > > &gt; &amp;nbsp;&amp;nbsp; 能否把 checkpoint 的 interval > 调长一点再看看是否稳定呢?从 shared > > > &gt; 目录的数据量看,有增长,后续基本持平。现在 > > > &gt; Checkpointed Data Size 是增量的大小[1],而不是整个 checkpoint > 的数据量的大小,如果 > > > checkpoint > > > &gt; 之间,数据改动很多的话,这个值会变大 > > > &gt; > > > &gt; [1] > > > &gt; > > > &gt; > > > > > > https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7 > > > <https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7>>; > > &gt > > > < > > > https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7&gt > > > <https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/ops/state/state_backends.html#%E5%A2%9E%E9%87%8F%E5%BF%AB%E7%85%A7&gt>>; > >; > > > Best, > > > &gt; Congxian > > > &gt; > > > &gt; > > > &gt; op <[hidden email]&amp;gt; 于2020年8月3日周一 下午2:18写道: > > > &gt; > > > &gt; &amp;gt; &amp;amp;nbsp; &amp;amp;nbsp; > > > &gt; &amp;gt; > > > 同问,我也遇到了状态越来越大的情况,使用的是1.11.0版本,用hdfs保存checkpoint,checkpoint间隔3分钟, > > > &gt; &amp;gt; 逻辑是按照 事件day 和 id 进行groupby > > > &gt; &amp;gt; > 然后有十几个聚合指标,运行了7天左右,状态一直在增加,设置了失效时间,然后watermark看着也正常在走 > > > &gt; &amp;gt; > tConfig.setIdleStateRetentionTime(Time.minutes(1440), > > > &gt; &amp;gt; Time.minutes(1440+10)) > > > &gt; &amp;gt; > > > &gt; &amp;gt; > > > &gt; &amp;gt; > > > &gt; &amp;gt; > > > &gt; &amp;gt; > > > > ------------------&amp;amp;nbsp;原始邮件&amp;amp;nbsp;------------------ > > > &gt; &amp;gt; 发件人: > > > &gt; > > > > > > &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; > > > &gt; &amp;nbsp; "user-zh" > > > &gt; > > > > > > &amp;gt;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp; > > > &gt; &amp;nbsp; < > > > &gt; &amp;gt; [hidden email]&amp;amp;gt;; > > > &gt; &amp;gt; 发送时间:&amp;amp;nbsp;2020年8月3日(星期一) > 中午1:50 > > > &gt; &amp;gt; 收件人:&amp;amp;nbsp;"user-zh"< > [hidden email] > > > &amp;amp;gt;; > > > &gt; &amp;gt; > > > &gt; &amp;gt; 主题:&amp;amp;nbsp;Re: > flink1.10.1/1.11.1 使用sql 进行group 和 > > 时间窗口 > > > 操作后 状态越来越大 > > > &gt; &amp;gt; > > > &gt; &amp;gt; > > > &gt; &amp;gt; > > > &gt; &amp;gt; hi,您好: > > > &gt; &amp;gt; 我改回增量模式重新收集了一些数据: > > > &gt; &amp;gt; 1、数据处理速度:3000条每秒,是测试环境的,压力比较稳定,几乎没有波动 > > > &gt; &amp;gt; 2、checkpoint是interval设置的是5秒 > > > &gt; &amp;gt; 3、目前这个作业是每分钟一个窗口 > > > &gt; &amp;gt; 4、并行度设置的1,使用on-yarn模式 > > > &gt; &amp;gt; > > > &gt; &amp;gt; 刚启动的时候,如下: > > > &gt; &amp;gt; < > > > > http://apache-flink.147419.n8.nabble.com/file/t793/6.png&amp;amp;gt; > > > &gt; &amp;gt; > > > &gt; &amp;gt; 18分钟后,如下: > > > &gt; &amp;gt; < > > > > http://apache-flink.147419.n8.nabble.com/file/t793/9.png&amp;amp;gt; > > > &gt; &amp;gt; > > > &gt; &amp;gt; checkpoints设置: > > > &gt; &amp;gt; < > > > > http://apache-flink.147419.n8.nabble.com/file/t793/conf.png&amp;amp;gt > ; > > > &gt; &amp;gt; > > > &gt; &amp;gt; hdfs上面大小: > > > &gt; &amp;gt; < > > > > http://apache-flink.147419.n8.nabble.com/file/t793/hdfs.png&amp;amp;gt > ; > > > &gt; &amp;gt; > > > &gt; &amp;gt; 页面上看到的大小: > > > &gt; &amp;gt; < > > > &gt; > > > > > > http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;amp;gt > > > <http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;amp;gt>>; > > &gt > > > < > > > http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;amp;gt&gt > > > <http://apache-flink.147419.n8.nabble.com/file/t793/checkpoinsts1.png&amp;amp;gt&gt>>; > >; > > > ; > > > &gt; &amp;gt; > > > &gt; &amp;gt; > > > &gt; &amp;gt; Congxian Qiu wrote > > > &gt; &amp;gt; &amp;amp;gt; > Hi&amp;amp;nbsp;&amp;amp;nbsp; 鱼子酱 > > > &gt; &amp;gt; > > > > &amp;amp;gt;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp; > > > 能否把在使用增量 checkpoint > > > &gt; 的模式下,截图看一下 checkpoint > > > &gt; &amp;gt; size 的走势呢?另外可以的话,也麻烦你在每次 > > > &gt; &amp;gt; &amp;amp;gt; checkpoint 做完之后,到 hdfs 上 > ls 一下 checkpoint > > 目录的大小。 > > > &gt; &amp;gt; > > > > &amp;amp;gt;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp; > > > &gt; 另外有一个问题还需要回答一下,你的处理速度大概是多少,state 的更新频率能否评估一下呢? > > > &gt; &amp;gt; &amp;amp;gt; > > > &gt; &amp;gt; &amp;amp;gt; Best, > > > &gt; &amp;gt; &amp;amp;gt; Congxian > > > &gt; &amp;gt; &amp;amp;gt; > > > &gt; &amp;gt; &amp;amp;gt; > > > &gt; &amp;gt; &amp;amp;gt; 鱼子酱 < > > > &gt; &amp;gt; > > > &gt; &amp;gt; &amp;amp;gt; 384939718@ > > > &gt; &amp;gt; > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > 于2020年7月30日周四 上午10:43写道: > > > &gt; &amp;gt; &amp;amp;gt; > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; 感谢! > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > flink1.11.1版本里面,我尝试了下面两种backend,目前运行了20多个小时, > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > 能够看到状态的大小在一个区间内波动,没有发现一直增长的情况了。 > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > StateBackend backend =new > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > &gt; &amp;gt; > > > &gt; > > > > > > RocksDBStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false); > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > StateBackend backend =new > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > &gt; &amp;gt; > > > &gt; > > > > > > FsStateBackend("hdfs:///checkpoints-data/"+yamlReader.getValueByKey("jobName").toString()+"/",false); > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > 这样看,有可能是RocksDBStateBackend增量模式这边可能存在一些问题。 > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > RocksDBStateBackend: > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > &amp;amp;amp;lt; > > > &gt; &amp;gt; > > > > > > http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;amp;gt > > > <http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;amp;gt>>; > > &gt > > > < > > > http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;amp;gt&gt > > > <http://apache-flink.147419.n8.nabble.com/file/t793/444.png&amp;amp;amp;gt&gt>>; > >; > > > ; > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > FsStateBackend: > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > &amp;amp;amp;lt; > > > &gt; &amp;gt; > > > > > > http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;amp;gt > > > <http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;amp;gt>>; > > &gt > > > < > > > http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;amp;gt&gt > > > <http://apache-flink.147419.n8.nabble.com/file/t793/555.png&amp;amp;amp;gt&gt>>; > >; > > > ; > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; -- > > > &gt; &amp;gt; &amp;amp;gt;&amp;amp;gt; Sent from: > > > http://apache-flink.147419.n8.nabble.com/ > > > &gt <http://apache-flink.147419.n8.nabble.com/&gt>; > &amp;gt < > > > http://apache-flink.147419.n8.nabble.com/&amp;gt&gt;; > > > &amp;amp;gt;&amp;amp;gt; > > > &gt; &amp;gt; > > > &gt; &amp;gt; > > > &gt; &amp;gt; > > > &gt; &amp;gt; > > > &gt; &amp;gt; > > > &gt; &amp;gt; -- > > > &gt; &amp;gt; Sent from: > http://apache-flink.147419.n8.nabble.com/ > > <http://apache-flink.147419.n8.nabble.com/>>; |
Free forum by Nabble | Edit this page |