您好!
我在使用prometheus监控flink时发现一个问题不知是不是bug,反映如下 版本信息 Flink 1.9.1 Prometheus 2.18 pushgateway 1.2.0 问题: 配置 metrics.reporter.promgateway.randomJobNameSuffix为false后,部分metrics不能正确的push到pushgateway里。具体表现是,部分metrics(主要是jobmanager相关,如 flink_jobmanager_Status_JVM_CPU_Load ),无法持久的存在pushgateway中,频繁刷新发现指标一会儿消失,一会儿又出现。还有部分指标直接丢失了,如 flink_jobmanager_job_fullRestarts。 metrics.reporter.promgateway.randomJobNameSuffix设置为true时,功能是正常的。 以下是我的相关配置: metrics.reporter.promgateway.class: org.apache.flink.metrics.prometheus.PrometheusPushGatewayReporter metrics.reporter.promgateway.host: localhost metrics.reporter.promgateway.port: 9091 metrics.reporter.promgateway.jobName: cluster1 metrics.reporter.promgateway.randomJobNameSuffix: *false* metrics.reporter.promgateway.deleteOnShutdown: *false* 望能解决我的疑惑,谢谢~~~~ |
我不清楚这算不算BUG,但是你说的问题,我确实遇到过,并经历了一段时间的排查,最终得以解决。
这跟metrics.reporter.promgateway.randomJobNameSuffix没有关系,建议你详细阅读一下pushgateway的官方文档,搞清楚推送方式GET和POST的区别。 然后去flink-metrics-prometheus包下面找到org.apache.flink.metrics.prometheus.PrometheusPushGatewayReporter#report这个方法,将它推送方式修改一下,重新打包,就可以了。很高兴能帮到你。 详细排查过程,参考我的文章: https://daijiguo.blog.csdn.net/article/details/105453643 ------------------ 原始邮件 ------------------ 发件人: "李佳宸"<[hidden email]>; 发送时间: 2020年5月12日(星期二) 上午8:57 收件人: "user-zh"<[hidden email]>; 主题: Prometheus pushgateway 监控 Flink metrics的问题 您好! 我在使用prometheus监控flink时发现一个问题不知是不是bug,反映如下 版本信息 Flink 1.9.1 Prometheus 2.18 pushgateway 1.2.0 问题: 配置 metrics.reporter.promgateway.randomJobNameSuffix为false后,部分metrics不能正确的push到pushgateway里。具体表现是,部分metrics(主要是jobmanager相关,如 flink_jobmanager_Status_JVM_CPU_Load ),无法持久的存在pushgateway中,频繁刷新发现指标一会儿消失,一会儿又出现。还有部分指标直接丢失了,如 flink_jobmanager_job_fullRestarts。 metrics.reporter.promgateway.randomJobNameSuffix设置为true时,功能是正常的。 以下是我的相关配置: metrics.reporter.promgateway.class: org.apache.flink.metrics.prometheus.PrometheusPushGatewayReporter metrics.reporter.promgateway.host: localhost metrics.reporter.promgateway.port: 9091 metrics.reporter.promgateway.jobName: cluster1 metrics.reporter.promgateway.randomJobNameSuffix: *false* metrics.reporter.promgateway.deleteOnShutdown: *false* 望能解决我的疑惑,谢谢~~~~ |
十分感谢~~~但我确实RandomJobNameSuffix为true时没有问题,很奇怪。
另外,我使用prometheus reporter发现比pushgateway少了特别多的metrics,不知道您有这种情况吗? 972684638 <[hidden email]> 于2020年5月12日周二 上午10:22写道: > 我不清楚这算不算BUG,但是你说的问题,我确实遇到过,并经历了一段时间的排查,最终得以解决。 > > 这跟metrics.reporter.promgateway.randomJobNameSuffix没有关系,建议你详细阅读一下pushgateway的官方文档,搞清楚推送方式GET和POST的区别。 > > 然后去flink-metrics-prometheus包下面找到org.apache.flink.metrics.prometheus.PrometheusPushGatewayReporter#report这个方法,将它推送方式修改一下,重新打包,就可以了。很高兴能帮到你。 > 详细排查过程,参考我的文章: > https://daijiguo.blog.csdn.net/article/details/105453643 > > > > > > > ------------------ 原始邮件 ------------------ > 发件人: "李佳宸"<[hidden email]>; > 发送时间: 2020年5月12日(星期二) 上午8:57 > 收件人: "user-zh"<[hidden email]>; > > 主题: Prometheus pushgateway 监控 Flink metrics的问题 > > > > 您好! > > 我在使用prometheus监控flink时发现一个问题不知是不是bug,反映如下 > > 版本信息 > Flink 1.9.1 > Prometheus 2.18 > pushgateway 1.2.0 > > 问题: > 配置 > > metrics.reporter.promgateway.randomJobNameSuffix为false后,部分metrics不能正确的push到pushgateway里。具体表现是,部分metrics(主要是jobmanager相关,如 > flink_jobmanager_Status_JVM_CPU_Load > ),无法持久的存在pushgateway中,频繁刷新发现指标一会儿消失,一会儿又出现。还有部分指标直接丢失了,如 > flink_jobmanager_job_fullRestarts。 > > metrics.reporter.promgateway.randomJobNameSuffix设置为true时,功能是正常的。 > > 以下是我的相关配置: > metrics.reporter.promgateway.class: > org.apache.flink.metrics.prometheus.PrometheusPushGatewayReporter > metrics.reporter.promgateway.host: localhost > metrics.reporter.promgateway.port: 9091 > metrics.reporter.promgateway.jobName: cluster1 > metrics.reporter.promgateway.randomJobNameSuffix: *false* > metrics.reporter.promgateway.deleteOnShutdown: *false* > > 望能解决我的疑惑,谢谢~~~~ |
Free forum by Nabble | Edit this page |