我已经准备好了 PrometheusPushGatewayReporter
如文档度量部分所述。
我可以看到在push gateway的ui中暴露的flink jobmanager和taskmanagers的度量,以及它们被prometheus集群正确地刮取。
问题是即使我已经明确地设置了 deleteOnJobShutdown
config选项,当通过flink cli工具取消作业时,仅删除jobmanager的度量。
有没有办法同时删除过时的taskmanager指标?我的配置如下:
metrics.reporter.promgateway.class: org.apache.flink.metrics.prometheus.PrometheusPushGatewayReporter
metrics.reporter.promgateway.host: $PUSH_GATEWAY_HOST
metrics.reporter.promgateway.port: 80
metrics.reporter.promgateway.jobName: foo
metrics.reporter.promgateway.randomJobNameSuffix: true
metrics.reporter.promgateway.deleteOnShutdown: true
metrics.reporter.promgateway.interval: 60 SECONDS
我正在Hadoop2.6.0上使用Flink1.7.1
1条答案
按热度按时间wljmcqd81#
.
在我们的产品环境中,我们也遇到了同样的问题。如果pushgateway可以实现
TTL for pushed metrics
[1] ,它将非常有用。但目前,我们使用外部调度系统来检查flink作业是否处于活动状态,然后通过 pushgateway的restapi[2]。[1]https://github.com/prometheus/pushgateway/issues/19
[2]https://github.com/prometheus/pushgateway#delete-方法