admin

prometheus告警问题分析

admin 运维技术 2022-11-11 459浏览 0

prometheus告警问题分析

今天来说一下我在使用prometheus过程中遇到的告警问题。

问题分析

最近运维prometheus的过程中发现,有的时候它应该发送告警,可实际却没有;有的时候,不该发送告警却发送了;还有的时候,告警出现明显的延迟。为了找出其中的具体原因,特地去查阅了一些资料,同时也参考了官网的相关资料。希望对大家在今后使用prometheus有所帮助。

先来看一下官网提供的prometheus和alertmanager的一些默认的重要配置。如下所示:

#promtheus
global:
#Howfrequentlytoscrapetargetsbydefault.从目标抓取监控数据的间隔
[scrape_interval:<duration>|default=1m]
#Howlonguntilascraperequesttimesout.从目标住区数据的超时时间
[scrape_timeout:<duration>|default=10s]
#Howfrequentlytoevaluaterules.告警规则评估的时间间隔
[evaluation_interval:<duration>|default=1m]
#alertmanager
#Howlongtoinitiallywaittosendanotificationforagroup
#ofalerts.Allowstowaitforaninhibitingalerttoarriveorcollect
#moreinitialalertsforthesamegroup.(Usually~0stofewminutes.)
[group_wait:<duration>|default=30s]#初次发送告警的等待时间

#Howlongtowaitbeforesendinganotificationaboutnewalertsthat
#areaddedtoagroupofalertsforwhichaninitialnotificationhas
#alreadybeensent.(Usually~5mormore.)
[group_interval:<duration>|default=5m]同一个组其他新发生的告警发送时间间隔

#Howlongtowaitbeforesendinganotificationagainifithasalready
#beensentsuccessfullyforanalert.(Usually~3hormore).
[repeat_interval:<duration>|default=4h]重复发送同一个告警的时间间隔

继续浏览有关 系统运维 的文章
发表评论