Apache Flink 中文用户邮件列表

flink 1.12 Cancel Job内存未释放(问)

Classic

List

Threaded

12 messages Options

徐州州

flink 1.12 Cancel Job内存未释放(问)

请教一下，我flink sql任务Cancel之后，隔一个小时后重启，还是接着Cancel的点进行累加计算的。我在IDEA中开发，代码中没有设置任何Checkpoints，请问我该如何在任务Cancel的时候同时释放掉job所使用的TaskManager内存？

nobleyd

Re: flink 1.12 Cancel Job内存未释放(问)

不可以吧。任务是任务。taskManager是taskManager。 taskManager是提前启动好的一个进程，任务提交的时候会由
taskManager 帮你执行。cancel后taskManager继续它自己的事情（比如等新的任务）。
或者考虑yarn方式，per-job模式啥的。

徐州州 <[hidden email]> 于2020年12月29日周二上午9:00写道：

> 请教一下，我flink
> sql任务Cancel之后，隔一个小时后重启，还是接着Cancel的点进行累加计算的。我在IDEA中开发，代码中没有设置任何Checkpoints，请问我该如何在任务Cancel的时候同时释放掉job所使用的TaskManager内存？

徐州州

回复： flink 1.12 Cancel Job内存未释放(问)

我在IDEA中写的flink sql代码，job任务一直跑着，凌晨cancel掉，早上我启动job，计算的结果还在之前的结果上累加，我不明白这是为什么。代码中设置了Checkpoint，任务Cancel掉，我发现TaskManager的Solt已经全部空闲，但内存并没有减少。

------------------ 原始邮件 ------------------
发件人: "赵一旦"<[hidden email]>;
发送时间: 2020年12月29日(星期二) 晚上9:35
收件人: "user-zh"<[hidden email]>;
主题: Re: flink 1.12 Cancel Job内存未释放(问)

不可以吧。任务是任务。taskManager是taskManager。  taskManager是提前启动好的一个进程，任务提交的时候会由
taskManager 帮你执行。cancel后taskManager继续它自己的事情（比如等新的任务）。
或者考虑yarn方式，per-job模式啥的。

徐州州 <[hidden email]> 于2020年12月29日周二上午9:00写道：

> 请教一下，我flink
> sql任务Cancel之后，隔一个小时后重启，还是接着Cancel的点进行累加计算的。我在IDEA中开发，代码中没有设置任何Checkpoints，请问我该如何在任务Cancel的时候同时释放掉job所使用的TaskManager内存？

徐州州

回复： flink 1.12 Cancel Job内存未释放(问)

In reply to this post by nobleyd

我使用的是StandaloneSessionCluster的环境。

------------------ 原始邮件 ------------------
发件人: "user-zh" <[hidden email]>;
发送时间: 2020年12月29日(星期二) 晚上9:35
收件人: "user-zh"<[hidden email]>;

主题: Re: flink 1.12 Cancel Job内存未释放(问)

不可以吧。任务是任务。taskManager是taskManager。  taskManager是提前启动好的一个进程，任务提交的时候会由
taskManager 帮你执行。cancel后taskManager继续它自己的事情（比如等新的任务）。
或者考虑yarn方式，per-job模式啥的。

徐州州 <[hidden email]> 于2020年12月29日周二上午9:00写道：

> 请教一下，我flink
> sql任务Cancel之后，隔一个小时后重启，还是接着Cancel的点进行累加计算的。我在IDEA中开发，代码中没有设置任何Checkpoints，请问我该如何在任务Cancel的时候同时释放掉job所使用的TaskManager内存？

徐州州

回复： flink 1.12 Cancel Job内存未释放(问)

In reply to this post by nobleyd

即使我切换了，yarn-cluster模式，我23:50，通过/opt/module/hadoop3.2.1/bin/yarn application -kill application_1609656886263_0043，kill掉job，第二天1:30重启，结果还是在昨天的结果上累加的，执行的kill-job好像并不能释放state，这个真的一点办法都没有了吗？

------------------ 原始邮件 ------------------
发件人: "赵一旦"<[hidden email]>;
发送时间: 2020年12月29日(星期二) 晚上9:35
收件人: "user-zh"<[hidden email]>;
主题: Re: flink 1.12 Cancel Job内存未释放(问)

不可以吧。任务是任务。taskManager是taskManager。  taskManager是提前启动好的一个进程，任务提交的时候会由
taskManager 帮你执行。cancel后taskManager继续它自己的事情（比如等新的任务）。
或者考虑yarn方式，per-job模式啥的。

徐州州 <[hidden email]> 于2020年12月29日周二上午9:00写道：

> 请教一下，我flink
> sql任务Cancel之后，隔一个小时后重启，还是接着Cancel的点进行累加计算的。我在IDEA中开发，代码中没有设置任何Checkpoints，请问我该如何在任务Cancel的时候同时释放掉job所使用的TaskManager内存？

nobleyd

Re: flink 1.12 Cancel Job内存未释放(问)

具体SQL。其实我没特别明白你表达的问题。
什么叫做释放内存，还有在之前的结果上累加。这2是什么跟什么没啥关系的东西，没听懂你表达啥。
前者是内存，后者反映的状态。如果是基于检查点/保存点重启任务，当然会保留状态，就是继续累加。

徐州州 <[hidden email]> 于2021年1月4日周一上午8:45写道：

> 即使我切换了，yarn-cluster模式，我23:50，通过/opt/module/hadoop3.2.1/bin/yarn
> application -kill
> application_1609656886263_0043，kill掉job，第二天1:30重启，结果还是在昨天的结果上累加的，执行的kill-job好像并不能释放state，这个真的一点办法都没有了吗？
>
>
>
> ------------------ 原始邮件 ------------------
> 发件人: "赵一旦"<[hidden email]>;
> 发送时间: 2020年12月29日(星期二) 晚上9:35
> 收件人: "user-zh"<[hidden email]>;
> 主题: Re: flink 1.12 Cancel Job内存未释放(问)
>
>
>
> 不可以吧。任务是任务。taskManager是taskManager。  taskManager是提前启动好的一个进程，任务提交的时候会由
> taskManager 帮你执行。cancel后taskManager继续它自己的事情（比如等新的任务）。
> 或者考虑yarn方式，per-job模式啥的。
>
> 徐州州 <[hidden email]> 于2020年12月29日周二上午9:00写道：
>
> > 请教一下，我flink
> >
> sql任务Cancel之后，隔一个小时后重启，还是接着Cancel的点进行累加计算的。我在IDEA中开发，代码中没有设置任何Checkpoints，请问我该如何在任务Cancel的时候同时释放掉job所使用的TaskManager内存？

徐州州

回复： flink 1.12 Cancel Job内存未释放(问)

我一个flink-sql任务，每次隔天计算都会在昨天的计算结果上累加，我使用代码jar的方式提交，代码中设置了MemoryStateBackend，我定时任务是23:57-kill掉正在执行的job，隔天的00:30通过azkaban的启动脚本，重新提交任务执行，可是我发现00:30当天计算的结果，是在昨天的基础上累加的，我查看kill掉任务的那一段时间NodeManager的内存也得到了释放，可是为什么我在00:30的时间点启动，还是会在昨天的基础上累计，而且计算的结果（并没有完全在昨天的基础上累计），比如昨天计算结果1000，今天它可能在900的结果上进行累加。请问这种情况是为什么。试了好多，都没有解决。|insert into app_bs_drainage_place
|SELECT
| do.GrouporgName,
| du.Name,
| COUNT(DISTINCT dooi.Code) AS TotalSingular,
| md5(concat(do.GrouporgName,du.Name,cast(current_date as String))) as uuids,
| current_date as As_Of_Date
|FROM dw_od_order_info dooi
| INNER JOIN dw_worktask_info dwi ON dwi.CustomerId = dooi.CustomerId AND dwi.HandlerPersonId = dooi.UserId and dwi.As_Of_Date=current_date
| INNER JOIN dim_cc_media_placement_label_relation dmplr ON dmplr.MediaPlacementId = dwi.PlacementId
| INNER JOIN dim_cc_media_label dcml ON dmplr.LabelId = dcml.Id AND dcml.Name IN ('金装驼奶', '血糖仪')
| INNER JOIN dim_user du ON dooi.UserId = du.Id
| INNER JOIN dim_org do ON dooi.UserOrgId = do.Grouporgid AND left(do.GrouporgName, 2) = '引流'
| WHERE dooi.As_Of_Date=current_date and dooi.Status <> 60 AND dooi.Status <> 120 AND dooi.OrgType = 1
| GROUP BY do.GrouporgName,du.Name

------------------ 原始邮件 ------------------
发件人: "赵一旦"<[hidden email]>;
发送时间: 2021年1月4日(星期一) 晚上10:06
收件人: "user-zh"<[hidden email]>;
主题: Re: flink 1.12 Cancel Job内存未释放(问)

具体SQL。其实我没特别明白你表达的问题。
什么叫做释放内存，还有在之前的结果上累加。这2是什么跟什么没啥关系的东西，没听懂你表达啥。
前者是内存，后者反映的状态。如果是基于检查点/保存点重启任务，当然会保留状态，就是继续累加。

徐州州 <[hidden email]> 于2021年1月4日周一上午8:45写道：

> 即使我切换了，yarn-cluster模式，我23:50，通过/opt/module/hadoop3.2.1/bin/yarn
> application -kill
> application_1609656886263_0043，kill掉job，第二天1:30重启，结果还是在昨天的结果上累加的，执行的kill-job好像并不能释放state，这个真的一点办法都没有了吗？
>
>
>
> ------------------&nbsp;原始邮件&nbsp;------------------
> 发件人: "赵一旦"<[hidden email]&gt;;
> 发送时间: 2020年12月29日(星期二) 晚上9:35
> 收件人: "user-zh"<[hidden email]&gt;;
> 主题: Re: flink 1.12 Cancel Job内存未释放(问)
>
>
>
> 不可以吧。任务是任务。taskManager是taskManager。&nbsp; taskManager是提前启动好的一个进程，任务提交的时候会由
> taskManager 帮你执行。cancel后taskManager继续它自己的事情（比如等新的任务）。
> 或者考虑yarn方式，per-job模式啥的。
>
> 徐州州 <[hidden email]&gt; 于2020年12月29日周二上午9:00写道：
>
> &gt; 请教一下，我flink
> &gt;
> sql任务Cancel之后，隔一个小时后重启，还是接着Cancel的点进行累加计算的。我在IDEA中开发，代码中没有设置任何Checkpoints，请问我该如何在任务Cancel的时候同时释放掉job所使用的TaskManager内存？

徐州州

回复： flink 1.12 Cancel Job内存未释放(问)

我使用的是flink-on-yarn-cluster模式

------------------ 原始邮件 ------------------
发件人: "徐州州" <[hidden email]>;
发送时间: 2021年1月5日(星期二) 上午9:04
收件人: "user-zh"<[hidden email]>;"user-zh"<[hidden email]>;

主题: 回复： flink 1.12 Cancel Job内存未释放(问)

MemoryStateBackend，我定时任务是23:57-kill掉正在执行的job，隔天的00:30通过azkaban的启动脚本，重新提交任务执行，可是我发现00:30当天计算的结果，是在昨天的基础上累加的，我查看kill掉任务的那一段时间NodeManager的内存也得到了释放，可是为什么我在00:30的时间点启动，还是会在昨天的基础上累计，而且计算的结果（并没有完全在昨天的基础上累计），比如昨天计算结果1000，今天它可能在900的结果上进行累加。请问这种情况是为什么。试了好多，都没有解决。|insert into app_bs_drainage_place
|SELECT
| do.GrouporgName,
| du.Name,
| COUNT(DISTINCT dooi.Code) AS TotalSingular,
| md5(concat(do.GrouporgName,du.Name,cast(current_date as String))) as uuids,
| current_date as As_Of_Date
|FROM dw_od_order_info dooi
| INNER JOIN dw_worktask_info dwi ON dwi.CustomerId = dooi.CustomerId AND dwi.HandlerPersonId = dooi.UserId and dwi.As_Of_Date=current_date
| INNER JOIN dim_cc_media_placement_label_relation dmplr ON dmplr.MediaPlacementId = dwi.PlacementId
| INNER JOIN dim_cc_media_label dcml ON dmplr.LabelId = dcml.Id AND dcml.Name IN ('金装驼奶', '血糖仪')
| INNER JOIN dim_user du ON dooi.UserId = du.Id
| INNER JOIN dim_org do ON dooi.UserOrgId = do.Grouporgid AND left(do.GrouporgName, 2) = '引流'
| WHERE dooi.As_Of_Date=current_date and dooi.Status <> 60 AND dooi.Status <> 120 AND dooi.OrgType = 1
| GROUP BY do.GrouporgName,du.Name

------------------ 原始邮件 ------------------
发件人: "赵一旦"<[hidden email]>;
发送时间: 2021年1月4日(星期一) 晚上10:06
收件人: "user-zh"<[hidden email]>;
主题: Re: flink 1.12 Cancel Job内存未释放(问)

具体SQL。其实我没特别明白你表达的问题。
什么叫做释放内存，还有在之前的结果上累加。这2是什么跟什么没啥关系的东西，没听懂你表达啥。
前者是内存，后者反映的状态。如果是基于检查点/保存点重启任务，当然会保留状态，就是继续累加。

徐州州 <[hidden email]> 于2021年1月4日周一上午8:45写道：

> 即使我切换了，yarn-cluster模式，我23:50，通过/opt/module/hadoop3.2.1/bin/yarn
> application -kill
> application_1609656886263_0043，kill掉job，第二天1:30重启，结果还是在昨天的结果上累加的，执行的kill-job好像并不能释放state，这个真的一点办法都没有了吗？
>
>
>
> ------------------&nbsp;原始邮件&nbsp;------------------
> 发件人: "赵一旦"<[hidden email]&gt;;
> 发送时间: 2020年12月29日(星期二) 晚上9:35
> 收件人: "user-zh"<[hidden email]&gt;;
> 主题: Re: flink 1.12 Cancel Job内存未释放(问)
>
>
>
> 不可以吧。任务是任务。taskManager是taskManager。&nbsp; taskManager是提前启动好的一个进程，任务提交的时候会由
> taskManager 帮你执行。cancel后taskManager继续它自己的事情（比如等新的任务）。
> 或者考虑yarn方式，per-job模式啥的。
>
> 徐州州 <[hidden email]&gt; 于2020年12月29日周二上午9:00写道：
>
> &gt; 请教一下，我flink
> &gt;
> sql任务Cancel之后，隔一个小时后重启，还是接着Cancel的点进行累加计算的。我在IDEA中开发，代码中没有设置任何Checkpoints，请问我该如何在任务Cancel的时候同时释放掉job所使用的TaskManager内存？

刘海

回复： flink 1.12 Cancel Job内存未释放(问)

In reply to this post by 徐州州

这种情况貌似和检查点、保存点还有状态后端有关，可以排查排查，重新启动任务在昨天的基础上累加这个逻辑是正确的（如果配置了检查点、保存点还有状态后端），只是现在昨天你杀死正在执行的job的时候最后保存的状态结果和你实际的结果不一致

| |
刘海
|
|
[hidden email]
|
签名由网易邮箱大师定制
在2021年1月5日 09:04，徐州州<[hidden email]> 写道：
我一个flink-sql任务，每次隔天计算都会在昨天的计算结果上累加，我使用代码jar的方式提交，代码中设置了MemoryStateBackend，我定时任务是23:57-kill掉正在执行的job，隔天的00:30通过azkaban的启动脚本，重新提交任务执行，可是我发现00:30当天计算的结果，是在昨天的基础上累加的，我查看kill掉任务的那一段时间NodeManager的内存也得到了释放，可是为什么我在00:30的时间点启动，还是会在昨天的基础上累计，而且计算的结果（并没有完全在昨天的基础上累计），比如昨天计算结果1000，今天它可能在900的结果上进行累加。请问这种情况是为什么。试了好多，都没有解决。|insert into app_bs_drainage_place
|SELECT
| do.GrouporgName,
| du.Name,
| COUNT(DISTINCT dooi.Code) AS TotalSingular,
| md5(concat(do.GrouporgName,du.Name,cast(current_date as String))) as uuids,
| current_date as As_Of_Date
|FROM dw_od_order_info dooi
| INNER JOIN dw_worktask_info dwi ON dwi.CustomerId = dooi.CustomerId AND dwi.HandlerPersonId = dooi.UserId and dwi.As_Of_Date=current_date
| INNER JOIN dim_cc_media_placement_label_relation dmplr ON dmplr.MediaPlacementId = dwi.PlacementId
| INNER JOIN dim_cc_media_label dcml ON dmplr.LabelId = dcml.Id AND dcml.Name IN ('金装驼奶', '血糖仪')
| INNER JOIN dim_user du ON dooi.UserId = du.Id
| INNER JOIN dim_org do ON dooi.UserOrgId = do.Grouporgid AND left(do.GrouporgName, 2) = '引流'
| WHERE dooi.As_Of_Date=current_date and dooi.Status <> 60 AND dooi.Status <> 120 AND dooi.OrgType = 1
| GROUP BY do.GrouporgName,du.Name

------------------ 原始邮件 ------------------
发件人: "赵一旦"<[hidden email]>;
发送时间: 2021年1月4日(星期一) 晚上10:06
收件人: "user-zh"<[hidden email]>;
主题: Re: flink 1.12 Cancel Job内存未释放(问)

具体SQL。其实我没特别明白你表达的问题。
什么叫做释放内存，还有在之前的结果上累加。这2是什么跟什么没啥关系的东西，没听懂你表达啥。
前者是内存，后者反映的状态。如果是基于检查点/保存点重启任务，当然会保留状态，就是继续累加。

徐州州 <[hidden email]> 于2021年1月4日周一上午8:45写道：

> 即使我切换了，yarn-cluster模式，我23:50，通过/opt/module/hadoop3.2.1/bin/yarn
> application -kill
> application_1609656886263_0043，kill掉job，第二天1:30重启，结果还是在昨天的结果上累加的，执行的kill-job好像并不能释放state，这个真的一点办法都没有了吗？
>
>
>
> ------------------&nbsp;原始邮件&nbsp;------------------
> 发件人: "赵一旦"<[hidden email]&gt;;
> 发送时间: 2020年12月29日(星期二) 晚上9:35
> 收件人: "user-zh"<[hidden email]&gt;;
> 主题: Re: flink 1.12 Cancel Job内存未释放(问)
>
>
>
> 不可以吧。任务是任务。taskManager是taskManager。&nbsp; taskManager是提前启动好的一个进程，任务提交的时候会由
> taskManager 帮你执行。cancel后taskManager继续它自己的事情（比如等新的任务）。
> 或者考虑yarn方式，per-job模式啥的。
>
> 徐州州 <[hidden email]&gt; 于2020年12月29日周二上午9:00写道：
>
> &gt; 请教一下，我flink
> &gt;
> sql任务Cancel之后，隔一个小时后重启，还是接着Cancel的点进行累加计算的。我在IDEA中开发，代码中没有设置任何Checkpoints，请问我该如何在任务Cancel的时候同时释放掉job所使用的TaskManager内存？

徐州州

回复： flink 1.12 Cancel Job内存未释放(问)

这是我完整的配置文件，并没有设置任何状态后端，和保存点，任务kill执行的命令是/opt/module/hadoop3.2.1/bin/yarn application -kill jobid，启动命令执行的是，/opt/module/flink1.12/bin/flink run -d -m yarn-cluster -yjm 660 -ytm 2500 -ys 3 -yqu xjia_queue -ynm App_Bs_Drainage_Launch_200105，我猜想会不会是因为队列的问题，我集群中只有一个queue队列。

------------------ 原始邮件 ------------------

发件人: "user-zh" <[hidden email]>;

发送时间: 2021年1月5日(星期二) 上午10:03

收件人: "[hidden email]"<[hidden email]>;

主题: 回复： flink 1.12 Cancel Job内存未释放(问)

这种情况貌似和检查点、保存点还有状态后端有关，可以排查排查，重新启动任务在昨天的基础上累加这个逻辑是正确的（如果配置了检查点、保存点还有状态后端），只是现在昨天你杀死正在执行的job的时候最后保存的状态结果和你实际的结果不一致

| |
刘海
|
|
[hidden email]
|
签名由网易邮箱大师定制
在2021年1月5日 09:04，徐州州<[hidden email]> 写道：
我一个flink-sql任务，每次隔天计算都会在昨天的计算结果上累加，我使用代码jar的方式提交，代码中设置了MemoryStateBackend，我定时任务是23:57-kill掉正在执行的job，隔天的00:30通过azkaban的启动脚本，重新提交任务执行，可是我发现00:30当天计算的结果，是在昨天的基础上累加的，我查看kill掉任务的那一段时间NodeManager的内存也得到了释放，可是为什么我在00:30的时间点启动，还是会在昨天的基础上累计，而且计算的结果（并没有完全在昨天的基础上累计），比如昨天计算结果1000，今天它可能在900的结果上进行累加。请问这种情况是为什么。试了好多，都没有解决。|insert into app_bs_drainage_place
|SELECT
|     do.GrouporgName,
|     du.Name,
|     COUNT(DISTINCT dooi.Code) AS TotalSingular,
|    md5(concat(do.GrouporgName,du.Name,cast(current_date as String))) as uuids,
|    current_date as As_Of_Date
|FROM dw_od_order_info dooi
| INNER JOIN dw_worktask_info dwi ON dwi.CustomerId = dooi.CustomerId AND dwi.HandlerPersonId = dooi.UserId and dwi.As_Of_Date=current_date
| INNER JOIN dim_cc_media_placement_label_relation dmplr ON dmplr.MediaPlacementId = dwi.PlacementId
| INNER JOIN dim_cc_media_label dcml ON dmplr.LabelId = dcml.Id AND dcml.Name IN ('金装驼奶', '血糖仪')
| INNER JOIN dim_user du ON dooi.UserId = du.Id
| INNER JOIN dim_org do ON dooi.UserOrgId = do.Grouporgid AND left(do.GrouporgName, 2) = '引流'
| WHERE dooi.As_Of_Date=current_date and dooi.Status <> 60 AND dooi.Status <> 120 AND dooi.OrgType = 1
| GROUP BY do.GrouporgName,du.Name

------------------ 原始邮件 ------------------
发件人: "赵一旦"<[hidden email]>;
发送时间: 2021年1月4日(星期一) 晚上10:06
收件人: "user-zh"<[hidden email]>;
主题: Re: flink 1.12 Cancel Job内存未释放(问)

具体SQL。其实我没特别明白你表达的问题。
什么叫做释放内存，还有在之前的结果上累加。这2是什么跟什么没啥关系的东西，没听懂你表达啥。
前者是内存，后者反映的状态。如果是基于检查点/保存点重启任务，当然会保留状态，就是继续累加。

徐州州 <[hidden email]> 于2021年1月4日周一上午8:45写道：

> 即使我切换了，yarn-cluster模式，我23:50，通过/opt/module/hadoop3.2.1/bin/yarn
> application -kill
> application_1609656886263_0043，kill掉job，第二天1:30重启，结果还是在昨天的结果上累加的，执行的kill-job好像并不能释放state，这个真的一点办法都没有了吗？
>
>
>
> ------------------&nbsp;原始邮件&nbsp;------------------
> 发件人: "赵一旦"<[hidden email]&gt;;
> 发送时间: 2020年12月29日(星期二) 晚上9:35
> 收件人: "user-zh"<[hidden email]&gt;;
> 主题: Re: flink 1.12 Cancel Job内存未释放(问)
>
>
>
> 不可以吧。任务是任务。taskManager是taskManager。&nbsp; taskManager是提前启动好的一个进程，任务提交的时候会由
> taskManager 帮你执行。cancel后taskManager继续它自己的事情（比如等新的任务）。
> 或者考虑yarn方式，per-job模式啥的。
>
> 徐州州 <[hidden email]&gt; 于2020年12月29日周二上午9:00写道：
>
> &gt; 请教一下，我flink
> &gt;
> sql任务Cancel之后，隔一个小时后重启，还是接着Cancel的点进行累加计算的。我在IDEA中开发，代码中没有设置任何Checkpoints，请问我该如何在任务Cancel的时候同时释放掉job所使用的TaskManager内存？

Yun Tang

Re: 回复： flink 1.12 Cancel Job内存未释放(问)

Hi 徐州州

请查看一下checkpoint UI部分的overview，观察restored部分的是否为空，也就是没有从checkpoint恢复，同样可以观察job manager 部分日志，看是否从checkpoint resume。
如果没有从checkpoint/savepoint恢复，作业其实相当于是从头重新跑，除非作业有其他的外部访问，否则不应该有任何历史数据能看到。

祝好
唐云
________________________________
From: 徐州州 <[hidden email]>
Sent: Tuesday, January 5, 2021 10:34
To: [hidden email] <[hidden email]>
Subject: 回复： flink 1.12 Cancel Job内存未释放(问)

这是我完整的配置文件，并没有设置任何状态后端，和保存点，任务kill执行的命令是/opt/module/hadoop3.2.1/bin/yarn application -kill jobid，启动命令执行的是，/opt/module/flink1.12/bin/flink run -d -m yarn-cluster -yjm 660 -ytm 2500 -ys 3 -yqu xjia_queue -ynm App_Bs_Drainage_Launch_200105，我猜想会不会是因为队列的问题，我集群中只有一个queue队列。

------------------ 原始邮件 ------------------
发件人: "user-zh" <[hidden email]>;
发送时间: 2021年1月5日(星期二) 上午10:03
收件人: "[hidden email]"<[hidden email]>;
主题: 回复： flink 1.12 Cancel Job内存未释放(问)

这种情况貌似和检查点、保存点还有状态后端有关，可以排查排查，重新启动任务在昨天的基础上累加这个逻辑是正确的（如果配置了检查点、保存点还有状态后端），只是现在昨天你杀死正在执行的job的时候最后保存的状态结果和你实际的结果不一致

| |
刘海
|
|
[hidden email]
|
签名由网易邮箱大师定制
在2021年1月5日 09:04，徐州州<[hidden email]> 写道：
我一个flink-sql任务，每次隔天计算都会在昨天的计算结果上累加，我使用代码jar的方式提交，代码中设置了MemoryStateBackend，我定时任务是23:57-kill掉正在执行的job，隔天的00:30通过azkaban的启动脚本，重新提交任务执行，可是我发现00:30当天计算的结果，是在昨天的基础上累加的，我查看kill掉任务的那一段时间NodeManager的内存也得到了释放，可是为什么我在00:30的时间点启动，还是会在昨天的基础上累计，而且计算的结果（并没有完全在昨天的基础上累计），比如昨天计算结果1000，今天它可能在900的结果上进行累加。请问这种情况是为什么。试了好多，都没有解决。|insert into app_bs_drainage_place
|SELECT
| do.GrouporgName,
| du.Name,
| COUNT(DISTINCT dooi.Code) AS TotalSingular,
| md5(concat(do.GrouporgName,du.Name,cast(current_date as String))) as uuids,
| current_date as As_Of_Date
|FROM dw_od_order_info dooi
| INNER JOIN dw_worktask_info dwi ON dwi.CustomerId = dooi.CustomerId AND dwi.HandlerPersonId = dooi.UserId and dwi.As_Of_Date=current_date
| INNER JOIN dim_cc_media_placement_label_relation dmplr ON dmplr.MediaPlacementId = dwi.PlacementId
| INNER JOIN dim_cc_media_label dcml ON dmplr.LabelId = dcml.Id AND dcml.Name IN ('金装驼奶', '血糖仪')
| INNER JOIN dim_user du ON dooi.UserId = du.Id
| INNER JOIN dim_org do ON dooi.UserOrgId = do.Grouporgid AND left(do.GrouporgName, 2) = '引流'
| WHERE dooi.As_Of_Date=current_date and dooi.Status <> 60 AND dooi.Status <> 120 AND dooi.OrgType = 1
| GROUP BY do.GrouporgName,du.Name

------------------ 原始邮件 ------------------
发件人: "赵一旦"<[hidden email]>;
发送时间: 2021年1月4日(星期一) 晚上10:06
收件人: "user-zh"<[hidden email]>;
主题: Re: flink 1.12 Cancel Job内存未释放(问)

具体SQL。其实我没特别明白你表达的问题。
什么叫做释放内存，还有在之前的结果上累加。这2是什么跟什么没啥关系的东西，没听懂你表达啥。
前者是内存，后者反映的状态。如果是基于检查点/保存点重启任务，当然会保留状态，就是继续累加。

徐州州 <[hidden email]> 于2021年1月4日周一上午8:45写道：

> 即使我切换了，yarn-cluster模式，我23:50，通过/opt/module/hadoop3.2.1/bin/yarn
> application -kill
> application_1609656886263_0043，kill掉job，第二天1:30重启，结果还是在昨天的结果上累加的，执行的kill-job好像并不能释放state，这个真的一点办法都没有了吗？
>
>
>
> ------------------&nbsp;原始邮件&nbsp;------------------
> 发件人: "赵一旦"<[hidden email]&gt;;
> 发送时间: 2020年12月29日(星期二) 晚上9:35
> 收件人: "user-zh"<[hidden email]&gt;;
> 主题: Re: flink 1.12 Cancel Job内存未释放(问)
>
>
>
> 不可以吧。任务是任务。taskManager是taskManager。&nbsp; taskManager是提前启动好的一个进程，任务提交的时候会由
> taskManager 帮你执行。cancel后taskManager继续它自己的事情（比如等新的任务）。
> 或者考虑yarn方式，per-job模式啥的。
>
> 徐州州 <[hidden email]&gt; 于2020年12月29日周二上午9:00写道：
>
> &gt; 请教一下，我flink
> &gt;
> sql任务Cancel之后，隔一个小时后重启，还是接着Cancel的点进行累加计算的。我在IDEA中开发，代码中没有设置任何Checkpoints，请问我该如何在任务Cancel的时候同时释放掉job所使用的TaskManager内存？

徐州州

回复： flink 1.12 Cancel Job内存未释放(问)

In reply to this post by 刘海

我写的是flink-sql,with-upsert卡夫卡数据源，我状态后端使用的是MemoryStateBackend，其中设置了env.getCheckpointConfig.enableExternalizedCheckpoints(CheckpointConfig.ExternalizedCheckpointCleanup.DELETE_ON_CANCELLATION)，并没有开启检查点。我想实现每天的计算结果互不影响有什么办法吗大佬？试了很多方法都是在昨天基础上累计的，我的计算逻辑比较复杂没有进行开窗。

------------------ 原始邮件 ------------------
发件人: "刘海"<[hidden email]>;
发送时间: 2021年1月5日(星期二) 上午10:03
收件人: "user-zh"<[hidden email]>;
主题: 回复： flink 1.12 Cancel Job内存未释放(问)

这种情况貌似和检查点、保存点还有状态后端有关，可以排查排查，重新启动任务在昨天的基础上累加这个逻辑是正确的（如果配置了检查点、保存点还有状态后端），只是现在昨天你杀死正在执行的job的时候最后保存的状态结果和你实际的结果不一致

| |
刘海
|
|
[hidden email]
|
签名由网易邮箱大师定制
在2021年1月5日 09:04，徐州州<[hidden email]> 写道：
我一个flink-sql任务，每次隔天计算都会在昨天的计算结果上累加，我使用代码jar的方式提交，代码中设置了MemoryStateBackend，我定时任务是23:57-kill掉正在执行的job，隔天的00:30通过azkaban的启动脚本，重新提交任务执行，可是我发现00:30当天计算的结果，是在昨天的基础上累加的，我查看kill掉任务的那一段时间NodeManager的内存也得到了释放，可是为什么我在00:30的时间点启动，还是会在昨天的基础上累计，而且计算的结果（并没有完全在昨天的基础上累计），比如昨天计算结果1000，今天它可能在900的结果上进行累加。请问这种情况是为什么。试了好多，都没有解决。|insert into app_bs_drainage_place
|SELECT
|     do.GrouporgName,
|     du.Name,
|     COUNT(DISTINCT dooi.Code) AS TotalSingular,
|    md5(concat(do.GrouporgName,du.Name,cast(current_date as String))) as uuids,
|    current_date as As_Of_Date
|FROM dw_od_order_info dooi
|  INNER JOIN dw_worktask_info dwi ON dwi.CustomerId = dooi.CustomerId AND dwi.HandlerPersonId = dooi.UserId and dwi.As_Of_Date=current_date
|  INNER JOIN dim_cc_media_placement_label_relation dmplr ON dmplr.MediaPlacementId = dwi.PlacementId
|  INNER JOIN dim_cc_media_label dcml ON dmplr.LabelId = dcml.Id AND dcml.Name IN ('金装驼奶', '血糖仪')
|  INNER JOIN dim_user du ON dooi.UserId = du.Id
| INNER JOIN dim_org do ON dooi.UserOrgId = do.Grouporgid AND left(do.GrouporgName, 2) = '引流'
| WHERE dooi.As_Of_Date=current_date and dooi.Status <&gt; 60 AND dooi.Status <&gt; 120 AND dooi.OrgType = 1
| GROUP BY do.GrouporgName,du.Name

------------------&nbsp;原始邮件&nbsp;------------------
发件人: "赵一旦"<[hidden email]&gt;;
发送时间: 2021年1月4日(星期一) 晚上10:06
收件人: "user-zh"<[hidden email]&gt;;
主题: Re: flink 1.12 Cancel Job内存未释放(问)

具体SQL。其实我没特别明白你表达的问题。
什么叫做释放内存，还有在之前的结果上累加。这2是什么跟什么没啥关系的东西，没听懂你表达啥。
前者是内存，后者反映的状态。如果是基于检查点/保存点重启任务，当然会保留状态，就是继续累加。

徐州州 <[hidden email]&gt; 于2021年1月4日周一上午8:45写道：

&gt; 即使我切换了，yarn-cluster模式，我23:50，通过/opt/module/hadoop3.2.1/bin/yarn
&gt; application -kill
&gt; application_1609656886263_0043，kill掉job，第二天1:30重启，结果还是在昨天的结果上累加的，执行的kill-job好像并不能释放state，这个真的一点办法都没有了吗？
&gt;
&gt;
&gt;
&gt; ------------------&amp;nbsp;原始邮件&amp;nbsp;------------------
&gt; 发件人: "赵一旦"<[hidden email]&amp;gt;;
&gt; 发送时间: 2020年12月29日(星期二) 晚上9:35
&gt; 收件人: "user-zh"<[hidden email]&amp;gt;;
&gt; 主题: Re: flink 1.12 Cancel Job内存未释放(问)
&gt;
&gt;
&gt;
&gt; 不可以吧。任务是任务。taskManager是taskManager。&amp;nbsp; taskManager是提前启动好的一个进程，任务提交的时候会由
&gt; taskManager 帮你执行。cancel后taskManager继续它自己的事情（比如等新的任务）。
&gt; 或者考虑yarn方式，per-job模式啥的。
&gt;
&gt; 徐州州 <[hidden email]&amp;gt; 于2020年12月29日周二上午9:00写道：
&gt;
&gt; &amp;gt; 请教一下，我flink
&gt; &amp;gt;
&gt; sql任务Cancel之后，隔一个小时后重启，还是接着Cancel的点进行累加计算的。我在IDEA中开发，代码中没有设置任何Checkpoints，请问我该如何在任务Cancel的时候同时释放掉job所使用的TaskManager内存？