Flink 提交作业时的缓存可以删除吗

classic Classic list List threaded Threaded
3 messages Options
Reply | Threaded
Open this post in threaded view
|

Flink 提交作业时的缓存可以删除吗

LiangbinZhang
Flink 1.12下会将flink的依赖以及作业的jar包缓存在hdfs上,如下图:

<http://apache-flink.147419.n8.nabble.com/file/t447/flink_%E6%8F%90%E4%BA%A4%E6%97%B6%E7%BC%93%E5%AD%98.png>

由于flink很早就开始使用了,这种目录越来越多,就算任务不在运行也不会自动清除。经过简单测试,直接删除后,不影响任务的运行以及简单的状态恢复。目前不知道会不会存在其他依赖,希望有清楚的能解释下这个的原理、作用以及能否删除。
删除的目的是为了节省hdfs空间,做自身优化;另一方面是想弄清楚这个的原理



--
Sent from: http://apache-flink.147419.n8.nabble.com/
Reply | Threaded
Open this post in threaded view
|

Re: Flink 提交作业时的缓存可以删除吗

tison
org/apache/flink/yarn/YarnResourceManagerDriver.java:236
org/apache/flink/yarn/YarnClusterDescriptor.java:495

应该是会在作业退出或者强杀的时候清理的,你可以看一下对应版本有无这个逻辑

可以加一下日志看看实际是否触发,删除的是什么目录

Best,
tison.


Robin Zhang <[hidden email]> 于2021年2月2日周二 下午2:37写道:

> Flink 1.12下会将flink的依赖以及作业的jar包缓存在hdfs上,如下图:
>
> <
> http://apache-flink.147419.n8.nabble.com/file/t447/flink_%E6%8F%90%E4%BA%A4%E6%97%B6%E7%BC%93%E5%AD%98.png>
>
>
>
> 由于flink很早就开始使用了,这种目录越来越多,就算任务不在运行也不会自动清除。经过简单测试,直接删除后,不影响任务的运行以及简单的状态恢复。目前不知道会不会存在其他依赖,希望有清楚的能解释下这个的原理、作用以及能否删除。
> 删除的目的是为了节省hdfs空间,做自身优化;另一方面是想弄清楚这个的原理
>
>
>
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/
Reply | Threaded
Open this post in threaded view
|

Re: Flink 提交作业时的缓存可以删除吗

LiangbinZhang
Hi,tison
     感谢提供思路。当前版本flink1.10,测试发现在yarn web ui点击左上角kill,无法触发删除。通过flink web
ui中的cancel按钮以及 官方建议的停止job 的方式(echo "stop" | ./bin/yarn-session.sh -id
application_Id)是可以实现停止任务即可清除文件。
    之前没有清除的文件是因为在yarn web ui直接点击kill。

调用栈:
org.apache.flink.yarn.Utils.deleteApplicationFiles:214
org.apache.flink.yarn.YarnClusterDescriptor.killCluster:403
org.apache.flink.yarn.cli.FlinkYarnSessionCli.run:569

Best,
Robin.


tison wrote

> org/apache/flink/yarn/YarnResourceManagerDriver.java:236
> org/apache/flink/yarn/YarnClusterDescriptor.java:495
>
> 应该是会在作业退出或者强杀的时候清理的,你可以看一下对应版本有无这个逻辑
>
> 可以加一下日志看看实际是否触发,删除的是什么目录
>
> Best,
> tison.
>
>
> Robin Zhang &lt;

> vincent2015qdlg@

> &gt; 于2021年2月2日周二 下午2:37写道:
>
>> Flink 1.12下会将flink的依赖以及作业的jar包缓存在hdfs上,如下图:
>>
>> <
>> http://apache-flink.147419.n8.nabble.com/file/t447/flink_%E6%8F%90%E4%BA%A4%E6%97%B6%E7%BC%93%E5%AD%98.png>
>>
>>
>>
>> 由于flink很早就开始使用了,这种目录越来越多,就算任务不在运行也不会自动清除。经过简单测试,直接删除后,不影响任务的运行以及简单的状态恢复。目前不知道会不会存在其他依赖,希望有清楚的能解释下这个的原理、作用以及能否删除。
>> 删除的目的是为了节省hdfs空间,做自身优化;另一方面是想弄清楚这个的原理
>>
>>
>>
>> --
>> Sent from: http://apache-flink.147419.n8.nabble.com/





--
Sent from: http://apache-flink.147419.n8.nabble.com/