CheckPoint Dir 路径下引发的一些问题

classic Classic list List threaded Threaded
5 messages Options
Reply | Threaded
Open this post in threaded view
|

CheckPoint Dir 路径下引发的一些问题

Px New
Hi everyOne 有一个关于CheckPoint相关的一个问题:
1.我在项目中使用的状态后端为:Fsstatebackend
2.我在jobManager的log输出找到相应的job ID后 去对应的HDFS 找到了对应的chk目录
3.但我有两个疑问: 
3.1.没有设置 chk的存储数默认是多保留多少份呢(我这边看到保留了近20次的chk)?
3.2 当我点进具体的chk-id 后 发现有很多文件[见2图] 我清楚的是当任务发生异常后tesk 会从hdfs 将_metadata 下载后进行任务恢复操作的,那其他的哪些文件是如何产生的?以及有什么作用呢?
期待回复:😀😀



Reply | Threaded
Open this post in threaded view
|

Re: CheckPoint Dir 路径下引发的一些问题

Weihua Hu
HI, Px New

1. Checkpoint 保存数量可以通过参数: state.checkpoints.num-retained 来控制,默认是 1
2. _metadata 只是一些元数据,保存了state 的句柄,其他文件是 state 数据,由各 Task 在触发 checkpoint 的时候上传。相反在恢复 checkpoint 的时候JM 读取_metadata 将相应句柄下发到 Task,Task 通过远端 HDFS 拉取对应的 state。


Best
Weihua Hu

> 2020年6月5日 13:36,Px New <[hidden email]> 写道:
>
> Hi everyOne 有一个关于CheckPoint相关的一个问题:
> 1.我在项目中使用的状态后端为:Fsstatebackend
> 2.我在jobManager的log输出找到相应的job ID后 去对应的HDFS 找到了对应的chk目录
> 3.但我有两个疑问:
> 3.1.没有设置 chk的存储数默认是多保留多少份呢(我这边看到保留了近20次的chk)?
> 3.2 当我点进具体的chk-id 后 发现有很多文件[见2图] 我清楚的是当任务发生异常后tesk 会从hdfs 将_metadata 下载后进行任务恢复操作的,那其他的哪些文件是如何产生的?以及有什么作用呢?
> 期待回复:😀😀
>
>
>

Reply | Threaded
Open this post in threaded view
|

回复: CheckPoint Dir 路径下引发的一些问题

zhiyezou
Hi
麻烦使用第三方图床,把图片链接过来,直接贴图片的话显示不出来




------------------&nbsp;原始邮件&nbsp;------------------
发件人:&nbsp;"Weihua Hu"<[hidden email]&gt;;
发送时间:&nbsp;2020年6月5日(星期五) 中午1:48
收件人:&nbsp;"user-zh"<[hidden email]&gt;;

主题:&nbsp;Re: CheckPoint Dir 路径下引发的一些问题



HI, Px New

1. Checkpoint 保存数量可以通过参数: state.checkpoints.num-retained 来控制,默认是 1
2. _metadata 只是一些元数据,保存了state 的句柄,其他文件是 state 数据,由各 Task 在触发 checkpoint 的时候上传。相反在恢复 checkpoint 的时候JM 读取_metadata 将相应句柄下发到 Task,Task 通过远端 HDFS 拉取对应的 state。


Best
Weihua Hu

&gt; 2020年6月5日 13:36,Px New <[hidden email]&gt; 写道:
&gt;
&gt; Hi everyOne 有一个关于CheckPoint相关的一个问题:
&gt; 1.我在项目中使用的状态后端为:Fsstatebackend
&gt; 2.我在jobManager的log输出找到相应的job ID后 去对应的HDFS 找到了对应的chk目录
&gt; 3.但我有两个疑问:
&gt; 3.1.没有设置 chk的存储数默认是多保留多少份呢(我这边看到保留了近20次的chk)?
&gt; 3.2 当我点进具体的chk-id 后 发现有很多文件[见2图] 我清楚的是当任务发生异常后tesk 会从hdfs 将_metadata 下载后进行任务恢复操作的,那其他的哪些文件是如何产生的?以及有什么作用呢?
&gt; 期待回复:😀😀
&gt;
&gt;
&gt;
Reply | Threaded
Open this post in threaded view
|

Re: CheckPoint Dir 路径下引发的一些问题

Px New
哦 对此我很抱歉:
图1:  https://i.loli.net/2020/06/05/SAfpnkqlOUM9hD3.png
图2:
https://imgkr.cn-bj.ufileos.com/aed4cb64-dd24-4076-ba4c-a0e07bc356bf.png

zhiyezou <[hidden email]> 于2020年6月5日周五 下午1:58写道:

> Hi
> 麻烦使用第三方图床,把图片链接过来,直接贴图片的话显示不出来
>
>
>
>
> ------------------&nbsp;原始邮件&nbsp;------------------
> 发件人:&nbsp;"Weihua Hu"<[hidden email]&gt;;
> 发送时间:&nbsp;2020年6月5日(星期五) 中午1:48
> 收件人:&nbsp;"user-zh"<[hidden email]&gt;;
>
> 主题:&nbsp;Re: CheckPoint Dir 路径下引发的一些问题
>
>
>
> HI, Px New
>
> 1. Checkpoint 保存数量可以通过参数: state.checkpoints.num-retained 来控制,默认是 1
> 2. _metadata 只是一些元数据,保存了state 的句柄,其他文件是 state 数据,由各 Task 在触发 checkpoint
> 的时候上传。相反在恢复 checkpoint 的时候JM 读取_metadata 将相应句柄下发到 Task,Task 通过远端 HDFS 拉取对应的
> state。
>
>
> Best
> Weihua Hu
>
> &gt; 2020年6月5日 13:36,Px New <[hidden email]&gt; 写道:
> &gt;
> &gt; Hi everyOne 有一个关于CheckPoint相关的一个问题:
> &gt; 1.我在项目中使用的状态后端为:Fsstatebackend
> &gt; 2.我在jobManager的log输出找到相应的job ID后 去对应的HDFS 找到了对应的chk目录
> &gt; 3.但我有两个疑问:
> &gt; 3.1.没有设置 chk的存储数默认是多保留多少份呢(我这边看到保留了近20次的chk)?
> &gt; 3.2 当我点进具体的chk-id 后 发现有很多文件[见2图] 我清楚的是当任务发生异常后tesk 会从hdfs 将_metadata
> 下载后进行任务恢复操作的,那其他的哪些文件是如何产生的?以及有什么作用呢?
> &gt; 期待回复:😀😀
> &gt;
> &gt;
> &gt;
Reply | Threaded
Open this post in threaded view
|

Re: CheckPoint Dir 路径下引发的一些问题

Px New
In reply to this post by Weihua Hu
感谢回复, 我明白了在状态恢复时具体细节,以及其他文件的产生及作用😄

Weihua Hu <[hidden email]> 于2020年6月5日周五 下午1:48写道:

> HI, Px New
>
> 1. Checkpoint 保存数量可以通过参数: state.checkpoints.num-retained 来控制,默认是 1
> 2. _metadata 只是一些元数据,保存了state 的句柄,其他文件是 state 数据,由各 Task 在触发 checkpoint
> 的时候上传。相反在恢复 checkpoint 的时候JM 读取_metadata 将相应句柄下发到 Task,Task 通过远端 HDFS 拉取对应的
> state。
>
>
> Best
> Weihua Hu
>
> > 2020年6月5日 13:36,Px New <[hidden email]> 写道:
> >
> > Hi everyOne 有一个关于CheckPoint相关的一个问题:
> > 1.我在项目中使用的状态后端为:Fsstatebackend
> > 2.我在jobManager的log输出找到相应的job ID后 去对应的HDFS 找到了对应的chk目录
> > 3.但我有两个疑问:
> > 3.1.没有设置 chk的存储数默认是多保留多少份呢(我这边看到保留了近20次的chk)?
> > 3.2 当我点进具体的chk-id 后 发现有很多文件[见2图] 我清楚的是当任务发生异常后tesk 会从hdfs 将_metadata
> 下载后进行任务恢复操作的,那其他的哪些文件是如何产生的?以及有什么作用呢?
> > 期待回复:😀😀
> >
> >
> >
>
>