flink prometheus push gateway reporter-删除作业关闭时的度量

x8diyxa7  于 2021-05-27  发布在  Hadoop
关注(0)|答案(1)|浏览(1044)

我已经准备好了 PrometheusPushGatewayReporter 如文档度量部分所述。
我可以看到在push gateway的ui中暴露的flink jobmanager和taskmanagers的度量,以及它们被prometheus集群正确地刮取。
问题是即使我已经明确地设置了 deleteOnJobShutdown config选项,当通过flink cli工具取消作业时,仅删除jobmanager的度量。
有没有办法同时删除过时的taskmanager指标?我的配置如下:

metrics.reporter.promgateway.class: org.apache.flink.metrics.prometheus.PrometheusPushGatewayReporter
metrics.reporter.promgateway.host: $PUSH_GATEWAY_HOST
metrics.reporter.promgateway.port: 80
metrics.reporter.promgateway.jobName: foo
metrics.reporter.promgateway.randomJobNameSuffix: true
metrics.reporter.promgateway.deleteOnShutdown: true
metrics.reporter.promgateway.interval: 60 SECONDS

我正在Hadoop2.6.0上使用Flink1.7.1

wljmcqd8

wljmcqd81#

.
在我们的产品环境中,我们也遇到了同样的问题。如果pushgateway可以实现 TTL for pushed metrics [1] ,它将非常有用。但目前,我们使用外部调度系统来检查flink作业是否处于活动状态,然后通过 pushgateway的restapi[2]。
[1]https://github.com/prometheus/pushgateway/issues/19
[2]https://github.com/prometheus/pushgateway#delete-方法

相关问题