关于flink sql的kafka source的开始消费offset相关问题。

classic Classic list List threaded Threaded
6 messages Options
Reply | Threaded
Open this post in threaded view
|

关于flink sql的kafka source的开始消费offset相关问题。

nobleyd
如题,按照官方文档的kafka source部分,有如下配置说明。

scan.startup.mode : optionalgroup-offsetsStringStartup mode for Kafka
consumer, valid values are 'earliest-offset', 'latest-offset',
'group-offsets', 'timestamp' and 'specific-offsets'. See the following
Start Reading Position for more details.

其中Reading Positions部分说明如下:

The config option scan.startup.mode specifies the startup mode for
Kafka consumer. The valid enumerations are:

`group-offsets`: start from committed offsets in ZK / Kafka brokers of
a specific consumer group.
`earliest-offset`: start from the earliest offset possible.
`latest-offset`: start from the latest offset.
`timestamp`: start from user-supplied timestamp for each partition.
`specific-offsets`: start from user-supplied specific offsets for each
partition.

可见,latest-offset和group-offsets是2个配置,所以我配置latest-offset肯定是从最新部分开始消费的,而不管使用的说明group
id,以及这个group id已提交的offset,这个估计没问题。

然后我想知道的是:带有latest-offset这个配置的情况下,sql任务自动重启基于检查点的情况呢?是否从最新消费,还是基于检查点的offset消费。

对于flink stream中实现,我知道是从检查点offset的,为此我还覆盖过实现。  现在想知道下sql部分实现是否也类似,不想去查sql部分,不熟悉。
Reply | Threaded
Open this post in threaded view
|

Re: 关于flink sql的kafka source的开始消费offset相关问题。

JasonLee
hi

sql 也是会从上一次成功的 checkpoint 中保存的 offset 位置开始恢复数据的.



-----
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
Best Wishes
JasonLee
Reply | Threaded
Open this post in threaded view
|

Re: 关于flink sql的kafka source的开始消费offset相关问题。

nobleyd
那就挺难受的,我之前还想过一个办法是,禁止sql 任务的检查点功能就可以了。但是呢,flink禁止检查点后web
UI就无法显示重启次数了,任务的重启的监控现在都只能通过开启检查点才能反映出来(ckpt失败数量、ckpt restored数量)。

JasonLee <[hidden email]> 于2021年6月4日周五 上午11:49写道:

>
> hi
>
> sql 也是会从上一次成功的 checkpoint 中保存的 offset 位置开始恢复数据的.
>
>
>
> -----
> Best Wishes
> JasonLee
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/
Reply | Threaded
Open this post in threaded view
|

Re: 关于flink sql的kafka source的开始消费offset相关问题。

nobleyd
本质需求是我一个转发任务,本身检查点失败以及任务失败一般都是压力高,所以我希望重启是忽略堆积的数据从最新数据开始消费。我希望任务失败了就自动重启从最新开始继续转发。

yidan zhao <[hidden email]> 于2021年6月4日周五 上午11:51写道:

>
> 那就挺难受的,我之前还想过一个办法是,禁止sql 任务的检查点功能就可以了。但是呢,flink禁止检查点后web
> UI就无法显示重启次数了,任务的重启的监控现在都只能通过开启检查点才能反映出来(ckpt失败数量、ckpt restored数量)。
>
> JasonLee <[hidden email]> 于2021年6月4日周五 上午11:49写道:
> >
> > hi
> >
> > sql 也是会从上一次成功的 checkpoint 中保存的 offset 位置开始恢复数据的.
> >
> >
> >
> > -----
> > Best Wishes
> > JasonLee
> > --
> > Sent from: http://apache-flink.147419.n8.nabble.com/
Reply | Threaded
Open this post in threaded view
|

Re: 关于flink sql的kafka source的开始消费offset相关问题。

Yun Tang
hi,

本质上来说,你的做法有点hack其实不推荐,如果非要这么做的话,你还可以通过 numRestarts [1] 的指标来看重启了多少次。


[1] https://ci.apache.org/projects/flink/flink-docs-release-1.13/docs/ops/metrics/#availability

祝好
唐云
________________________________
From: yidan zhao <[hidden email]>
Sent: Friday, June 4, 2021 11:52
To: user-zh <[hidden email]>
Subject: Re: 关于flink sql的kafka source的开始消费offset相关问题。

本质需求是我一个转发任务,本身检查点失败以及任务失败一般都是压力高,所以我希望重启是忽略堆积的数据从最新数据开始消费。我希望任务失败了就自动重启从最新开始继续转发。

yidan zhao <[hidden email]> 于2021年6月4日周五 上午11:51写道:

>
> 那就挺难受的,我之前还想过一个办法是,禁止sql 任务的检查点功能就可以了。但是呢,flink禁止检查点后web
> UI就无法显示重启次数了,任务的重启的监控现在都只能通过开启检查点才能反映出来(ckpt失败数量、ckpt restored数量)。
>
> JasonLee <[hidden email]> 于2021年6月4日周五 上午11:49写道:
> >
> > hi
> >
> > sql 也是会从上一次成功的 checkpoint 中保存的 offset 位置开始恢复数据的.
> >
> >
> >
> > -----
> > Best Wishes
> > JasonLee
> > --
> > Sent from: http://apache-flink.147419.n8.nabble.com/
Reply | Threaded
Open this post in threaded view
|

Re: 关于flink sql的kafka source的开始消费offset相关问题。

JasonLee
In reply to this post by nobleyd
hi

那你只需要设置从 latest-offset 开始消费,并且禁用 checkpoint 就行了,至于重启的次数,可以通过 metrics 中的
numRestarts 去获取.



-----
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
Best Wishes
JasonLee