Apache Flink 中文用户邮件列表

回复：flink1.9.1采用Prometheus Pushgateway监控，当任务被kill掉，但grafana还是可以监控到数据

Classic

List

Threaded

12 messages Options

972684638

回复：flink1.9.1采用Prometheus Pushgateway监控，当任务被kill掉，但grafana还是可以监控到数据

修改grafana模板的查询语句，在promeQL后面加上[1m，1s]，这样过期太久的数据，就不会查到了

---原始邮件---
发件人: "bradyMk"<[hidden email]>
发送时间: 2020年9月1日(周二) 下午4:23
收件人: "user-zh"<[hidden email]>;
主题: flink1.9.1采用Prometheus Pushgateway监控，当任务被kill掉，但grafana还是可以监控到数据

请教一下大家：
我用flink1.9.1，使用Prometheus Pushgateway
监控，最后在grafana上展示指标，现在遇到了一个问题，就是当flink任务被kill掉后，该任务指标仍然残留在pushgateway里面（虽然数值停止更新，但Prometheus还是会去拉数据），这样就导致了grafana中仍然可以一直看到数据，造成了很多漏报警或者误报警，请问大家对于这种问题的解决，有什么好的建议么？

-----
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

bradyMk

Re: 回复：flink1.9.1采用Prometheus Pushgateway监控，当任务被kill掉，但grafana还是可以监控到数据

CONTENTS DELETED

The author has deleted this message.

xiao cai

Re: 回复：flink1.9.1采用Prometheus Pushgateway监控，当任务被kill掉，但grafana还是可以监控到数据

In reply to this post by 972684638

Hi:
可以试试在flink-conf.yaml中添加：
metrics.reporter.promgateway.deleteOnShutdown: true

Best,
Xiao
原始邮件
发件人: bradyMk<[hidden email]>
收件人: user-zh<[hidden email]>
发送时间: 2020年9月1日(周二) 16:50
主题: Re: 回复：flink1.9.1采用Prometheus Pushgateway监控，当任务被kill掉，但grafana还是可以监控到数据

您好，我不是很懂您的意思，例如我这边有一个这样的指标：flink_jobmanager_job_uptime 监控一个任务的运行时长；如果该任务被kill掉，那么这个指标的数值会变成一个不变的量，一直显示在grafana中。我不太会promeQL，我尝试这样： flink_jobmanager_job_uptime[1m]，这样是个非法查询命令，按照您的意思，应该怎么改呢？ ----- Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

972684638

回复：flink1.9.1采用Prometheus Pushgateway监控，当任务被kill掉，但grafana还是可以监控到数据

In reply to this post by 972684638

flink_jobmanager_job_uptime[1m:1s]
，意思是在过去一分钟的时间段内，每秒查询一次flink_jobmanager_job_uptime这个指标，查出来是一个列表，如果过去一分钟都没数据，则列表为空。
你可以尝试flink_jobmanager_job_uptime[1m:1s]这个写法，有没有效果我没试过
---原始邮件---
发件人: "bradyMk"<[hidden email]>
发送时间: 2020年9月1日(周二) 下午4:50
收件人: "user-zh"<[hidden email]>;
主题: Re: 回复：flink1.9.1采用Prometheus Pushgateway监控，当任务被kill掉，但grafana还是可以监控到数据

您好，我不是很懂您的意思，例如我这边有一个这样的指标：flink_jobmanager_job_uptime 监控一个任务的运行时长；
如果该任务被kill掉，那么这个指标的数值会变成一个不变的量，一直显示在grafana中。我不太会promeQL，我尝试这样：
flink_jobmanager_job_uptime[1m]，这样是个非法查询命令，按照您的意思，应该怎么改呢？

-----
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

bradyMk

Re: 回复：flink1.9.1采用Prometheus Pushgateway监控，当任务被kill掉，但grafana还是可以监控到数据

In reply to this post by xiao cai

CONTENTS DELETED

The author has deleted this message.

bradyMk

Re: 回复：flink1.9.1采用Prometheus Pushgateway监控，当任务被kill掉，但grafana还是可以监控到数据

In reply to this post by 972684638

CONTENTS DELETED

The author has deleted this message.

shizk233

Re: 回复：flink1.9.1采用Prometheus Pushgateway监控，当任务被kill掉，但grafana还是可以监控到数据

In reply to this post by xiao cai

Hi Xiao,
我这边实践过程中发现，该参数只能删除jobmanager对应的metrics group，不能删除tm的。
我们开启了randomJobNameSuffix，该参数会让JM和TM的metrics信息分属不同metrics group。

感觉这可能是一个bug?

xiao cai <[hidden email]> 于2020年9月1日周二下午4:57写道：

> Hi:
> 可以试试在flink-conf.yaml中添加：
> metrics.reporter.promgateway.deleteOnShutdown: true
>
>
> Best,
> Xiao
> 原始邮件
> 发件人: bradyMk<[hidden email]>
> 收件人: user-zh<[hidden email]>
> 发送时间: 2020年9月1日(周二) 16:50
> 主题: Re: 回复：flink1.9.1采用Prometheus Pushgateway监控，当任务被kill掉，但grafana还是可以监控到数据
>
>
> 您好，我不是很懂您的意思，例如我这边有一个这样的指标：flink_jobmanager_job_uptime 监控一个任务的运行时长；
> 如果该任务被kill掉，那么这个指标的数值会变成一个不变的量，一直显示在grafana中。我不太会promeQL，我尝试这样：
> flink_jobmanager_job_uptime[1m]，这样是个非法查询命令，按照您的意思，应该怎么改呢？ ----- Best Wishes
> -- Sent from: http://apache-flink.147419.n8.nabble.com/

xiao cai

Re: 回复：flink1.9.1采用Prometheus Pushgateway监控，当任务被kill掉，但grafana还是可以监控到数据

In reply to this post by 972684638

Hi shizk233：
我这边也复现了你说的情况，一模一样。
可以尝试使用定时调度任务检查flink任务的执行情况，当不再处于运行状态时，主动调用pushgateway的delete方法来删除pushgetway的metrics。

原始邮件
发件人: shizk233<[hidden email]>
收件人: [hidden email]<[hidden email]>
发送时间: 2020年9月1日(周二) 19:10
主题: Re: 回复：flink1.9.1采用Prometheus Pushgateway监控，当任务被kill掉，但grafana还是可以监控到数据

Hi Xiao, 我这边实践过程中发现，该参数只能删除jobmanager对应的metrics group，不能删除tm的。我们开启了randomJobNameSuffix，该参数会让JM和TM的metrics信息分属不同metrics group。感觉这可能是一个bug? xiao cai <[hidden email]> 于2020年9月1日周二下午4:57写道： > Hi: > 可以试试在flink-conf.yaml中添加： > metrics.reporter.promgateway.deleteOnShutdown: true > > > Best, > Xiao > 原始邮件 > 发件人: bradyMk<[hidden email]> > 收件人: user-zh<[hidden email]> > 发送时间: 2020年9月1日(周二) 16:50 > 主题: Re: 回复：flink1.9.1采用Prometheus Pushgateway监控，当任务被kill掉，但grafana还是可以监控到数据 > > > 您好，我不是很懂您的意思，例如我这边有一个这样的指标：flink_jobmanager_job_uptime 监控一个任务的运行时长； > 如果该任务被kill掉，那么这个指标的数值会变成一个不变的量，一直显示在grafana中。我不太会promeQL，我尝试这样： > flink_jobmanager_job_uptime[1m]，这样是个非法查询命令，按照您的意思，应该怎么改呢？ ----- Best Wishes > -- Sent from: http://apache-flink.147419.n8.nabble.com/

bradyMk

Re: 回复：flink1.9.1采用Prometheus Pushgateway监控，当任务被kill掉，但grafana还是可以监控到数据

CONTENTS DELETED

The author has deleted this message.

Jim Chen

Re: 回复：flink1.9.1采用Prometheus Pushgateway监控，当任务被kill掉，但grafana还是可以监控到数据

In reply to this post by xiao cai

能不能过restful api拿到pushgateway中metric上报的时间？通过这个时间动态判断删除group

xiao cai <[hidden email]> 于2020年9月1日周二下午8:52写道：

> Hi shizk233：
> 我这边也复现了你说的情况，一模一样。
>
> 可以尝试使用定时调度任务检查flink任务的执行情况，当不再处于运行状态时，主动调用pushgateway的delete方法来删除pushgetway的metrics。
>
>
>
>
> 原始邮件
> 发件人: shizk233<[hidden email]>
> 收件人: [hidden email]<[hidden email]>
> 发送时间: 2020年9月1日(周二) 19:10
> 主题: Re: 回复：flink1.9.1采用Prometheus Pushgateway监控，当任务被kill掉，但grafana还是可以监控到数据
>
>
> Hi Xiao, 我这边实践过程中发现，该参数只能删除jobmanager对应的metrics group，不能删除tm的。
> 我们开启了randomJobNameSuffix，该参数会让JM和TM的metrics信息分属不同metrics group。
> 感觉这可能是一个bug? xiao cai <[hidden email]> 于2020年9月1日周二下午4:57写道： > Hi: >
> 可以试试在flink-conf.yaml中添加： > metrics.reporter.promgateway.deleteOnShutdown:
> true > > > Best, > Xiao > 原始邮件 > 发件人: bradyMk<[hidden email]> > 收件人:
> user-zh<[hidden email]> > 发送时间: 2020年9月1日(周二) 16:50 > 主题: Re:
> 回复：flink1.9.1采用Prometheus Pushgateway监控，当任务被kill掉，但grafana还是可以监控到数据 > > >
> 您好，我不是很懂您的意思，例如我这边有一个这样的指标：flink_jobmanager_job_uptime 监控一个任务的运行时长； >
> 如果该任务被kill掉，那么这个指标的数值会变成一个不变的量，一直显示在grafana中。我不太会promeQL，我尝试这样： >
> flink_jobmanager_job_uptime[1m]，这样是个非法查询命令，按照您的意思，应该怎么改呢？ ----- Best Wishes
> > -- Sent from: http://apache-flink.147419.n8.nabble.com/

chenkai

Re:Re: 回复：flink1.9.1采用Prometheus Pushgateway监控，当任务被kill掉，但grafana还是可以监控到数据

hi：
你可以尝试下 prometheus-pushgateway-cleaner，支持 docker 运行

https://github.com/jorinvo/prometheus-pushgateway-cleaner

可以定时清理指定时间未更新的 pushgateway metric，希望可以帮到你

--

Best, yuchuan

在 2020-09-02 11:25:25，"Jim Chen" <[hidden email]> 写道：

>能不能过restful api拿到pushgateway中metric上报的时间？通过这个时间动态判断删除group
>
>xiao cai <[hidden email]> 于2020年9月1日周二下午8:52写道：
>
>> Hi shizk233：
>> 我这边也复现了你说的情况，一模一样。
>>
>> 可以尝试使用定时调度任务检查flink任务的执行情况，当不再处于运行状态时，主动调用pushgateway的delete方法来删除pushgetway的metrics。
>>
>>
>>
>>
>> 原始邮件
>> 发件人: shizk233<[hidden email]>
>> 收件人: [hidden email]<[hidden email]>
>> 发送时间: 2020年9月1日(周二) 19:10
>> 主题: Re: 回复：flink1.9.1采用Prometheus Pushgateway监控，当任务被kill掉，但grafana还是可以监控到数据
>>
>>
>> Hi Xiao, 我这边实践过程中发现，该参数只能删除jobmanager对应的metrics group，不能删除tm的。
>> 我们开启了randomJobNameSuffix，该参数会让JM和TM的metrics信息分属不同metrics group。
>> 感觉这可能是一个bug? xiao cai <[hidden email]> 于2020年9月1日周二下午4:57写道： > Hi: >
>> 可以试试在flink-conf.yaml中添加： > metrics.reporter.promgateway.deleteOnShutdown:
>> true > > > Best, > Xiao > 原始邮件 > 发件人: bradyMk<[hidden email]> > 收件人:
>> user-zh<[hidden email]> > 发送时间: 2020年9月1日(周二) 16:50 > 主题: Re:
>> 回复：flink1.9.1采用Prometheus Pushgateway监控，当任务被kill掉，但grafana还是可以监控到数据 > > >
>> 您好，我不是很懂您的意思，例如我这边有一个这样的指标：flink_jobmanager_job_uptime 监控一个任务的运行时长； >
>> 如果该任务被kill掉，那么这个指标的数值会变成一个不变的量，一直显示在grafana中。我不太会promeQL，我尝试这样： >
>> flink_jobmanager_job_uptime[1m]，这样是个非法查询命令，按照您的意思，应该怎么改呢？ ----- Best Wishes
>> > -- Sent from: http://apache-flink.147419.n8.nabble.com/

bradyMk

Re: Re:Re: 回复：flink1.9.1采用Prometheus Pushgateway监控，当任务被kill掉，但grafana还是可以监控到数据

CONTENTS DELETED

The author has deleted this message.