今天来说一下我在使用prometheus过程中遇到的告警问题。
问题分析
最近运维prometheus的过程中发现,有的时候它应该发送告警,可实际却没有;有的时候,不该发送告警却发送了;还有的时候,告警出现明显的延迟。为了找出其中的具体原因,特地去查阅了一些资料,同时也参考了官网的相关资料。希望对大家在今后使用prometheus有所帮助。
先来看一下官网提供的prometheus和alertmanager的一些默认的重要配置。如下所示:
#promtheus global: #Howfrequentlytoscrapetargetsbydefault.从目标抓取监控数据的间隔 [scrape_interval:<duration>|default=1m] #Howlonguntilascraperequesttimesout.从目标住区数据的超时时间 [scrape_timeout:<duration>|default=10s] #Howfrequentlytoevaluaterules.告警规则评估的时间间隔 [evaluation_interval:<duration>|default=1m] #alertmanager #Howlongtoinitiallywaittosendanotificationforagroup #ofalerts.Allowstowaitforaninhibitingalerttoarriveorcollect #moreinitialalertsforthesamegroup.(Usually~0stofewminutes.) [group_wait:<duration>|default=30s]#初次发送告警的等待时间 #Howlongtowaitbeforesendinganotificationaboutnewalertsthat #areaddedtoagroupofalertsforwhichaninitialnotificationhas #alreadybeensent.(Usually~5mormore.) [group_interval:<duration>|default=5m]同一个组其他新发生的告警发送时间间隔 #Howlongtowaitbeforesendinganotificationagainifithasalready #beensentsuccessfullyforanalert.(Usually~3hormore). [repeat_interval:<duration>|default=4h]重复发送同一个告警的时间间隔
转载请注明:IT运维空间 » 运维技术 » prometheus告警问题分析
发表评论