修改grafana模板的查询语句,在promeQL后面加上[1m,1s],这样过期太久的数据,就不会查到了
---原始邮件--- 发件人: "bradyMk"<[hidden email]> 发送时间: 2020年9月1日(周二) 下午4:23 收件人: "user-zh"<[hidden email]>; 主题: flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据 请教一下大家: 我用flink1.9.1,使用Prometheus Pushgateway 监控,最后在grafana上展示指标,现在遇到了一个问题,就是当flink任务被kill掉后,该任务指标仍然残留在pushgateway里面(虽然数值停止更新,但Prometheus还是会去拉数据),这样就导致了grafana中仍然可以一直看到数据,造成了很多漏报警或者误报警,请问大家对于这种问题的解决,有什么好的建议么? ----- Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/ |
CONTENTS DELETED
The author has deleted this message.
|
In reply to this post by 972684638
Hi:
可以试试在flink-conf.yaml中添加: metrics.reporter.promgateway.deleteOnShutdown: true Best, Xiao 原始邮件 发件人: bradyMk<[hidden email]> 收件人: user-zh<[hidden email]> 发送时间: 2020年9月1日(周二) 16:50 主题: Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据 您好,我不是很懂您的意思,例如我这边有一个这样的指标:flink_jobmanager_job_uptime 监控一个任务的运行时长; 如果该任务被kill掉,那么这个指标的数值会变成一个不变的量,一直显示在grafana中。我不太会promeQL,我尝试这样: flink_jobmanager_job_uptime[1m],这样是个非法查询命令,按照您的意思,应该怎么改呢? ----- Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/ |
In reply to this post by 972684638
flink_jobmanager_job_uptime[1m:1s]
,意思是在过去一分钟的时间段内,每秒查询一次flink_jobmanager_job_uptime这个指标,查出来是一个列表,如果过去一分钟都没数据,则列表为空。 你可以尝试flink_jobmanager_job_uptime[1m:1s]这个写法,有没有效果我没试过 ---原始邮件--- 发件人: "bradyMk"<[hidden email]> 发送时间: 2020年9月1日(周二) 下午4:50 收件人: "user-zh"<[hidden email]>; 主题: Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据 您好,我不是很懂您的意思,例如我这边有一个这样的指标:flink_jobmanager_job_uptime 监控一个任务的运行时长; 如果该任务被kill掉,那么这个指标的数值会变成一个不变的量,一直显示在grafana中。我不太会promeQL,我尝试这样: flink_jobmanager_job_uptime[1m],这样是个非法查询命令,按照您的意思,应该怎么改呢? ----- Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/ |
In reply to this post by xiao cai
CONTENTS DELETED
The author has deleted this message.
|
In reply to this post by 972684638
CONTENTS DELETED
The author has deleted this message.
|
In reply to this post by xiao cai
Hi Xiao,
我这边实践过程中发现,该参数只能删除jobmanager对应的metrics group,不能删除tm的。 我们开启了randomJobNameSuffix,该参数会让JM和TM的metrics信息分属不同metrics group。 感觉这可能是一个bug? xiao cai <[hidden email]> 于2020年9月1日周二 下午4:57写道: > Hi: > 可以试试在flink-conf.yaml中添加: > metrics.reporter.promgateway.deleteOnShutdown: true > > > Best, > Xiao > 原始邮件 > 发件人: bradyMk<[hidden email]> > 收件人: user-zh<[hidden email]> > 发送时间: 2020年9月1日(周二) 16:50 > 主题: Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据 > > > 您好,我不是很懂您的意思,例如我这边有一个这样的指标:flink_jobmanager_job_uptime 监控一个任务的运行时长; > 如果该任务被kill掉,那么这个指标的数值会变成一个不变的量,一直显示在grafana中。我不太会promeQL,我尝试这样: > flink_jobmanager_job_uptime[1m],这样是个非法查询命令,按照您的意思,应该怎么改呢? ----- Best Wishes > -- Sent from: http://apache-flink.147419.n8.nabble.com/ |
In reply to this post by 972684638
Hi shizk233:
我这边也复现了你说的情况,一模一样。 可以尝试使用定时调度任务检查flink任务的执行情况,当不再处于运行状态时,主动调用pushgateway的delete方法来删除pushgetway的metrics。 原始邮件 发件人: shizk233<[hidden email]> 收件人: [hidden email]<[hidden email]> 发送时间: 2020年9月1日(周二) 19:10 主题: Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据 Hi Xiao, 我这边实践过程中发现,该参数只能删除jobmanager对应的metrics group,不能删除tm的。 我们开启了randomJobNameSuffix,该参数会让JM和TM的metrics信息分属不同metrics group。 感觉这可能是一个bug? xiao cai <[hidden email]> 于2020年9月1日周二 下午4:57写道: > Hi: > 可以试试在flink-conf.yaml中添加: > metrics.reporter.promgateway.deleteOnShutdown: true > > > Best, > Xiao > 原始邮件 > 发件人: bradyMk<[hidden email]> > 收件人: user-zh<[hidden email]> > 发送时间: 2020年9月1日(周二) 16:50 > 主题: Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据 > > > 您好,我不是很懂您的意思,例如我这边有一个这样的指标:flink_jobmanager_job_uptime 监控一个任务的运行时长; > 如果该任务被kill掉,那么这个指标的数值会变成一个不变的量,一直显示在grafana中。我不太会promeQL,我尝试这样: > flink_jobmanager_job_uptime[1m],这样是个非法查询命令,按照您的意思,应该怎么改呢? ----- Best Wishes > -- Sent from: http://apache-flink.147419.n8.nabble.com/ |
CONTENTS DELETED
The author has deleted this message.
|
In reply to this post by xiao cai
能不能过restful api拿到pushgateway中metric上报的时间?通过这个时间动态判断删除group
xiao cai <[hidden email]> 于2020年9月1日周二 下午8:52写道: > Hi shizk233: > 我这边也复现了你说的情况,一模一样。 > > 可以尝试使用定时调度任务检查flink任务的执行情况,当不再处于运行状态时,主动调用pushgateway的delete方法来删除pushgetway的metrics。 > > > > > 原始邮件 > 发件人: shizk233<[hidden email]> > 收件人: [hidden email]<[hidden email]> > 发送时间: 2020年9月1日(周二) 19:10 > 主题: Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据 > > > Hi Xiao, 我这边实践过程中发现,该参数只能删除jobmanager对应的metrics group,不能删除tm的。 > 我们开启了randomJobNameSuffix,该参数会让JM和TM的metrics信息分属不同metrics group。 > 感觉这可能是一个bug? xiao cai <[hidden email]> 于2020年9月1日周二 下午4:57写道: > Hi: > > 可以试试在flink-conf.yaml中添加: > metrics.reporter.promgateway.deleteOnShutdown: > true > > > Best, > Xiao > 原始邮件 > 发件人: bradyMk<[hidden email]> > 收件人: > user-zh<[hidden email]> > 发送时间: 2020年9月1日(周二) 16:50 > 主题: Re: > 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据 > > > > 您好,我不是很懂您的意思,例如我这边有一个这样的指标:flink_jobmanager_job_uptime 监控一个任务的运行时长; > > 如果该任务被kill掉,那么这个指标的数值会变成一个不变的量,一直显示在grafana中。我不太会promeQL,我尝试这样: > > flink_jobmanager_job_uptime[1m],这样是个非法查询命令,按照您的意思,应该怎么改呢? ----- Best Wishes > > -- Sent from: http://apache-flink.147419.n8.nabble.com/ |
hi:
你可以尝试下 prometheus-pushgateway-cleaner,支持 docker 运行 https://github.com/jorinvo/prometheus-pushgateway-cleaner 可以定时清理指定时间未更新的 pushgateway metric,希望可以帮到你 -- Best, yuchuan 在 2020-09-02 11:25:25,"Jim Chen" <[hidden email]> 写道: >能不能过restful api拿到pushgateway中metric上报的时间?通过这个时间动态判断删除group > >xiao cai <[hidden email]> 于2020年9月1日周二 下午8:52写道: > >> Hi shizk233: >> 我这边也复现了你说的情况,一模一样。 >> >> 可以尝试使用定时调度任务检查flink任务的执行情况,当不再处于运行状态时,主动调用pushgateway的delete方法来删除pushgetway的metrics。 >> >> >> >> >> 原始邮件 >> 发件人: shizk233<[hidden email]> >> 收件人: [hidden email]<[hidden email]> >> 发送时间: 2020年9月1日(周二) 19:10 >> 主题: Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据 >> >> >> Hi Xiao, 我这边实践过程中发现,该参数只能删除jobmanager对应的metrics group,不能删除tm的。 >> 我们开启了randomJobNameSuffix,该参数会让JM和TM的metrics信息分属不同metrics group。 >> 感觉这可能是一个bug? xiao cai <[hidden email]> 于2020年9月1日周二 下午4:57写道: > Hi: > >> 可以试试在flink-conf.yaml中添加: > metrics.reporter.promgateway.deleteOnShutdown: >> true > > > Best, > Xiao > 原始邮件 > 发件人: bradyMk<[hidden email]> > 收件人: >> user-zh<[hidden email]> > 发送时间: 2020年9月1日(周二) 16:50 > 主题: Re: >> 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据 > > > >> 您好,我不是很懂您的意思,例如我这边有一个这样的指标:flink_jobmanager_job_uptime 监控一个任务的运行时长; > >> 如果该任务被kill掉,那么这个指标的数值会变成一个不变的量,一直显示在grafana中。我不太会promeQL,我尝试这样: > >> flink_jobmanager_job_uptime[1m],这样是个非法查询命令,按照您的意思,应该怎么改呢? ----- Best Wishes >> > -- Sent from: http://apache-flink.147419.n8.nabble.com/ |
Free forum by Nabble | Edit this page |