服务器性能监控系统告警策略有哪些



策略是告警管理的核心部分,用户可以根据自己的实际需要定制不同类型的告警策略,系统根据这些告警策略,对当前活动告警集合和原始告警,进行压缩,过滤,相关性处理等,产生新的当前活动告警集合,并将告警记录在历史告警表中。服务器性能监控系统告警策略主要提供以下几种策略:



1、重复策略


在网络监测中,由于周期性的对网络进行探测,当某些故障发生后,在其状态没有恢复正常前,后续探测也会报告同样的故障;另外,即使在同一次探测中也可能由于采用多种探测手段,对同一个故障报告多次告警;在极端情况下,可能产生告警风暴,把运维人员淹没。重复策略就是把多次报告的同一故障压缩为一条故障。



2、互斥策略


在网络环境中,由于网络运行情况的动态变化,在某些危险情况触发告警后,危险情况又解除,服务工具会报告其状态恢复的告警;明显的,对同一个状态,应该是以报告的状态为准,当新的告警到来后,原有的告警就自动无效。互斥策略就是应用于这种场景,当两个或多个告警就同一个问题做出不同的诊断时,以诊断为准,删除旧的告警。


3、定额策略



在网络环境中,由于诸多条件的限制,某些异常发生一两次是可以容忍的,即不需要处理;一个典型的情况是无线网络;无线网络本身具有不稳定的特点,偶尔一次探测发现网络连接不好,这是正常的,不需要处理;但是如果一个小时内报告多次中断,则意味着网络真的不稳定。


在服务器性能监控运维系统中,产生的所有告警都由相应的告警策略进行处理,每条告警可以同时匹配多种策略,按照次序依次进行抑制、压缩等操作。在中大规模网络环境中,诸多探测器会发生大量的告警,其中部分是不重要的;如果任由他们发生,则会将运维人员淹没,导致真正重要、紧急的告警得不到及时处理。抑制策略就是用于将不重要、不关心的告警丢弃掉。