回复:带有状态的算子保存checkpoint失败

classic Classic list List threaded Threaded
7 messages Options
Reply | Threaded
Open this post in threaded view
|

回复:带有状态的算子保存checkpoint失败

魏积乾
我也刚遇到过,是从1.10升级上来的,一个任务可以保存checkpoint,一个任务老是保存失败,然后查看了lib下面的jar,发现有些jar没有升级上来,于是更改了,配置文件还改了state.checkpoints.dir。
希望对你有帮助



发自我的iPhone


------------------ 原始邮件 ------------------
发件人: 王默 <[hidden email]&gt;
发送时间: 2020年11月27日 17:22
收件人: user-zh <[hidden email]&gt;
主题: 回复:带有状态的算子保存checkpoint失败
Reply | Threaded
Open this post in threaded view
|

Re:回复:带有状态的算子保存checkpoint失败

王默












感谢你提供的思路,配置文件已设置了state.checkpoints.dir,我检查一下是否有jar未升级





在 2020-11-27 17:34:39,"魏积乾" <[hidden email]> 写道:

>我也刚遇到过,是从1.10升级上来的,一个任务可以保存checkpoint,一个任务老是保存失败,然后查看了lib下面的jar,发现有些jar没有升级上来,于是更改了,配置文件还改了state.checkpoints.dir。
>希望对你有帮助
>
>
>
>发自我的iPhone
>
>
>------------------ 原始邮件 ------------------
>发件人: 王默 <[hidden email]&gt;
>发送时间: 2020年11月27日 17:22
>收件人: user-zh <[hidden email]&gt;
>主题: 回复:带有状态的算子保存checkpoint失败
Reply | Threaded
Open this post in threaded view
|

Re:回复:带有状态的算子保存checkpoint失败

王默
In reply to this post by 魏积乾






请问能具体告知是哪个包没升级吗?或者是否有什么包需要从opt拷贝到lib下











在 2020-11-27 17:34:39,"魏积乾" <[hidden email]> 写道:

>我也刚遇到过,是从1.10升级上来的,一个任务可以保存checkpoint,一个任务老是保存失败,然后查看了lib下面的jar,发现有些jar没有升级上来,于是更改了,配置文件还改了state.checkpoints.dir。
>希望对你有帮助
>
>
>
>发自我的iPhone
>
>
>------------------ 原始邮件 ------------------
>发件人: 王默 <[hidden email]&gt;
>发送时间: 2020年11月27日 17:22
>收件人: user-zh <[hidden email]&gt;
>主题: 回复:带有状态的算子保存checkpoint失败
Reply | Threaded
Open this post in threaded view
|

回复:Re:回复:带有状态的算子保存checkpoint失败

魏积乾
flink-csv-1.11.2.jar
flink-dist_2.11-1.11.2.jar
flink-json-1.11.2.jar
flink-shaded-zookeeper-3.4.14.jar
flink-table_2.11-1.11.2.jar
flink-table-blink_2.11-1.11.2.jar
log4j-1.2-api-2.12.1.jar
log4j-api-2.12.1.jar
log4j-core-2.12.1.jar
log4j-slf4j-impl-2.12.1.jar
flink-metrics-prometheus_2.12-1.11.2.jar

按时间排了个序,这是最新的包。



发自我的iPhone


------------------ 原始邮件 ------------------
发件人: 王默 <[hidden email]&gt;
发送时间: 2020年11月27日 18:41
收件人: user-zh <[hidden email]&gt;, harrywei <[hidden email]&gt;
主题: 回复:Re:回复:带有状态的算子保存checkpoint失败










请问能具体告知是哪个包没升级吗?或者是否有什么包需要从opt拷贝到lib下












在 2020-11-27 17:34:39,"魏积乾" <[hidden email]&gt; 写道: &gt;我也刚遇到过,是从1.10升级上来的,一个任务可以保存checkpoint,一个任务老是保存失败,然后查看了lib下面的jar,发现有些jar没有升级上来,于是更改了,配置文件还改了state.checkpoints.dir。 &gt;希望对你有帮助 &gt; &gt; &gt; &gt;发自我的iPhone &gt; &gt; &gt;------------------ 原始邮件 ------------------ &gt;发件人: 王默 <[hidden email]&amp;gt; &gt;发送时间: 2020年11月27日 17:22 &gt;收件人: user-zh <[hidden email]&amp;gt; &gt;主题: 回复:带有状态的算子保存checkpoint失败



&nbsp;
Reply | Threaded
Open this post in threaded view
|

Re: Re:回复:带有状态的算子保存checkpoint失败

nobleyd
失败原因也不写,怎么个不能保存。。。超时?还是啥。

魏积乾 <[hidden email]> 于2020年11月27日周五 下午7:08写道:

> flink-csv-1.11.2.jar
> flink-dist_2.11-1.11.2.jar
> flink-json-1.11.2.jar
> flink-shaded-zookeeper-3.4.14.jar
> flink-table_2.11-1.11.2.jar
> flink-table-blink_2.11-1.11.2.jar
> log4j-1.2-api-2.12.1.jar
> log4j-api-2.12.1.jar
> log4j-core-2.12.1.jar
> log4j-slf4j-impl-2.12.1.jar
> flink-metrics-prometheus_2.12-1.11.2.jar
>
> 按时间排了个序,这是最新的包。
>
>
>
> 发自我的iPhone
>
>
> ------------------ 原始邮件 ------------------
> 发件人: 王默 <[hidden email]&gt;
> 发送时间: 2020年11月27日 18:41
> 收件人: user-zh <[hidden email]&gt;, harrywei <[hidden email]
> &gt;
> 主题: 回复:Re:回复:带有状态的算子保存checkpoint失败
>
>
>
>
>
>
>
>
>
>
> 请问能具体告知是哪个包没升级吗?或者是否有什么包需要从opt拷贝到lib下
>
>
>
>
>
>
>
>
>
>
>
>
> 在 2020-11-27 17:34:39,"魏积乾" <[hidden email]&gt; 写道:
> &gt;我也刚遇到过,是从1.10升级上来的,一个任务可以保存checkpoint,一个任务老是保存失败,然后查看了lib下面的jar,发现有些jar没有升级上来,于是更改了,配置文件还改了state.checkpoints.dir。
> &gt;希望对你有帮助 &gt; &gt; &gt; &gt;发自我的iPhone &gt; &gt; &gt;------------------
> 原始邮件 ------------------ &gt;发件人: 王默 <[hidden email]&amp;gt;
> &gt;发送时间: 2020年11月27日 17:22 &gt;收件人: user-zh <[hidden email]&amp;gt;
> &gt;主题: 回复:带有状态的算子保存checkpoint失败
>
>
>
> &nbsp;
Reply | Threaded
Open this post in threaded view
|

Re:Re: Re:回复:带有状态的算子保存checkpoint失败

王默
checkpoint失败是在web页面上发现的,您看下截图https://imgchr.com/i/Dr3PNn
看taskmanager日志确实没有超时,也没有其他异常

















在 2020-11-27 21:39:50,"赵一旦" <[hidden email]> 写道:

>失败原因也不写,怎么个不能保存。。。超时?还是啥。
>
>魏积乾 <[hidden email]> 于2020年11月27日周五 下午7:08写道:
>
>> flink-csv-1.11.2.jar
>> flink-dist_2.11-1.11.2.jar
>> flink-json-1.11.2.jar
>> flink-shaded-zookeeper-3.4.14.jar
>> flink-table_2.11-1.11.2.jar
>> flink-table-blink_2.11-1.11.2.jar
>> log4j-1.2-api-2.12.1.jar
>> log4j-api-2.12.1.jar
>> log4j-core-2.12.1.jar
>> log4j-slf4j-impl-2.12.1.jar
>> flink-metrics-prometheus_2.12-1.11.2.jar
>>
>> 按时间排了个序,这是最新的包。
>>
>>
>>
>> 发自我的iPhone
>>
>>
>> ------------------ 原始邮件 ------------------
>> 发件人: 王默 <[hidden email]&gt;
>> 发送时间: 2020年11月27日 18:41
>> 收件人: user-zh <[hidden email]&gt;, harrywei <[hidden email]
>> &gt;
>> 主题: 回复:Re:回复:带有状态的算子保存checkpoint失败
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>> 请问能具体告知是哪个包没升级吗?或者是否有什么包需要从opt拷贝到lib下
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>> 在 2020-11-27 17:34:39,"魏积乾" <[hidden email]&gt; 写道:
>> &gt;我也刚遇到过,是从1.10升级上来的,一个任务可以保存checkpoint,一个任务老是保存失败,然后查看了lib下面的jar,发现有些jar没有升级上来,于是更改了,配置文件还改了state.checkpoints.dir。
>> &gt;希望对你有帮助 &gt; &gt; &gt; &gt;发自我的iPhone &gt; &gt; &gt;------------------
>> 原始邮件 ------------------ &gt;发件人: 王默 <[hidden email]&amp;gt;
>> &gt;发送时间: 2020年11月27日 17:22 &gt;收件人: user-zh <[hidden email]&amp;gt;
>> &gt;主题: 回复:带有状态的算子保存checkpoint失败
>>
>>
>>
>> &nbsp;
Reply | Threaded
Open this post in threaded view
|

Re: Re: Re:回复:带有状态的算子保存checkpoint失败

Congxian Qiu
checkpoint 失败了可以看看 是超时了,还是有 task snapshot 失败了,可以从 JM log
中来发现。超时的话,可以看下是数据量大需要时间久,还是 timeout 啥的设置太短;异常的话可以从对应的 tm log 看下为啥 snapshot
失败了

Best,
Congxian


王默 <[hidden email]> 于2020年11月27日周五 下午11:43写道:

> checkpoint失败是在web页面上发现的,您看下截图https://imgchr.com/i/Dr3PNn
> 看taskmanager日志确实没有超时,也没有其他异常
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
> 在 2020-11-27 21:39:50,"赵一旦" <[hidden email]> 写道:
> >失败原因也不写,怎么个不能保存。。。超时?还是啥。
> >
> >魏积乾 <[hidden email]> 于2020年11月27日周五 下午7:08写道:
> >
> >> flink-csv-1.11.2.jar
> >> flink-dist_2.11-1.11.2.jar
> >> flink-json-1.11.2.jar
> >> flink-shaded-zookeeper-3.4.14.jar
> >> flink-table_2.11-1.11.2.jar
> >> flink-table-blink_2.11-1.11.2.jar
> >> log4j-1.2-api-2.12.1.jar
> >> log4j-api-2.12.1.jar
> >> log4j-core-2.12.1.jar
> >> log4j-slf4j-impl-2.12.1.jar
> >> flink-metrics-prometheus_2.12-1.11.2.jar
> >>
> >> 按时间排了个序,这是最新的包。
> >>
> >>
> >>
> >> 发自我的iPhone
> >>
> >>
> >> ------------------ 原始邮件 ------------------
> >> 发件人: 王默 <[hidden email]&gt;
> >> 发送时间: 2020年11月27日 18:41
> >> 收件人: user-zh <[hidden email]&gt;, harrywei <
> [hidden email]
> >> &gt;
> >> 主题: 回复:Re:回复:带有状态的算子保存checkpoint失败
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >> 请问能具体告知是哪个包没升级吗?或者是否有什么包需要从opt拷贝到lib下
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >> 在 2020-11-27 17:34:39,"魏积乾" <[hidden email]&gt; 写道:
> >>
> &gt;我也刚遇到过,是从1.10升级上来的,一个任务可以保存checkpoint,一个任务老是保存失败,然后查看了lib下面的jar,发现有些jar没有升级上来,于是更改了,配置文件还改了state.checkpoints.dir。
> >> &gt;希望对你有帮助 &gt; &gt; &gt; &gt;发自我的iPhone &gt; &gt;
> &gt;------------------
> >> 原始邮件 ------------------ &gt;发件人: 王默 <[hidden email]&amp;gt;
> >> &gt;发送时间: 2020年11月27日 17:22 &gt;收件人: user-zh <[hidden email]
> &amp;gt;
> >> &gt;主题: 回复:带有状态的算子保存checkpoint失败
> >>
> >>
> >>
> >> &nbsp;
>