针对kafka/confluent jmx度量的警报管理阈值

lmvvr0a8  于 2021-06-06  发布在  Kafka
关注(0)|答案(0)|浏览(149)

我正在为Kafka建立一个警报监控工具。
我确实理解,有些指标的阈值取决于应用程序数据。但我只想知道这些指标和阈值,这将有助于我了解滞后,并有助于确定是否需要任何缩放。
到目前为止,我可以做到以下几点:
在kafka代理上启用jmx
使用jmxjava客户机或jconsole提供jmx度量。
接下来,我研究并发现了这么多的指标,但没有一个指标有明确的阈值(例如一些值或模式,如增加或减少,或可能是一些数学),在这些阈值之上,我应该为指标编写逻辑。
下面是几个例子:
underreplicatedpartitions-如果值大于0,则发出警报。
记录滞后最大值-如果值随时间增加,则发出警报。
offlinepartitionscount-值大于零时发出警报
activecontrollercount-如果值不是1,则发出警报。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题