帮助手册 报表 AI 支持的异常报表

人工智能支持的异常报表

Site24x7 的人工智能异常框架使用稳健的主成分分析 (RPCA) 和矩阵草图算法来检测监视器关键性能属性中的任何异常峰值或异常,即响应时间、CPU 使用百分比、内存利用率等;此外,在 Web 客户端内的详细表格或图形仪表板中以及通过告警电子邮件通知您此类峰值。您的所有 KPI 都会与季节性基准值进行比较。异常报表可帮助您微调资源性能并保护您的基础设施免受任何不可预见的问题。您可以通过生成 CSV、PDF 或通过电子邮件与您的团队共享异常情况。 

内容

概述

对正在监控的指标进行异常检测的想法是识别给定系列中的任何异常尖峰或异常。任何要启用异常检测的监控措施都被视为时间序列,其中,它在均匀间隔内根据时间进行轮询。根据某些静态的数学不等式,从长远来看不会给出上下文一致的结果。人工智能 (AI)可以通过一种旨在立即检测异常的方法来解决这个问题。

基于 AI 的方法具有不同的特点,例如:

  • 趋势平滑:趋势处理捕获整体模式方向(上升或下降)
  • 处理季节性:这是在每个时间范围内或多或少地重复出现的模式结构
  • 鲁棒性:使其不受微不足道的性能峰值的影响。

使用异常引擎预测趋势

异常引擎的循环由多个阶段组成,包括根据 AI 训练数据处理来自数据收集器的传入数据,生成已确认的异常,再到通知异常本身。异常 Engine 具有用于异常检测的定量和定性比较模型。使用异常引擎进行预测涉及两个阶段:

  1. 异常事件生成
  2. 确定异常严重性的域评分

异常事件生成

这个阶段的主要目的是执行重量级处理并生成“事件”。异常检测引擎每 15 分钟从 Site24x7 数据收集器代理收集一次指标。用于单变量异常检测,该数据将与机器学习模型的训练数据进行比较,该训练数据是过去两周各自一天的每小时第 95 个百分位值。例如,如果发送星期五的数据用于异常检测,那么最后两周的星期五的值将被视为机器学习模型的训练数据。这有助于实现数据的季节性。数据的第 95 个百分位被考虑用于训练,以删除存在的极值(在第 95 个百分位,前 5% 的最高值被删除,这也将删除训练数据中的任何异常峰值)。

对于多变量异常检测,Site24x7 的数据收集代理每 15 分钟再次将数据推送到异常检测平台。相关属性的最后两周每小时的第 95 个百分位值用于训练算法。如果该组合被检测为异常,则将确定导致该组合成为异常的属性。

基于与训练数据的比较,然后生成事件并将其定义为L1、L2 和 L3 值,其中 L3 值最有可能成为异常。

确定异常严重性的域评分

此阶段还通过考虑在相关监视器中看到的异常,为异常生成添加了一个定性模型。事件总结并给出一个分数,根据该分数决定“异常的严重性”。当异常发生时计划异常评分任务时,异常引擎会检查在过去 30 分钟内是否存在任何依赖监视器的异常。根据导致监视器异常的属性以及这些属性与预期值的偏差百分比,对各个监视器进行评分。

通常会考虑以下方法(按照下面指定的相同顺序)来确定最终分数:

  • 同一监视器的另一个属性检测为异常
  • 检测到异常的依赖监视器
  • 父/子监视器异常
  • 监视器,分组在同一监视器组下被检测为异常
  • 其他具有相同标签(用户定义标签)的监视器出现异常
  • 具有相同服务器名称/相同完全限定域名 (FQDN) 的监视器出现异常

您可以阅读我们的Kbase 文章,了解用于域评分和严重性基准测试的各种案例。  

最后,根据检测到的异常的领域得分、依赖关系和增加的严重性等因素,将异常的严重程度分为三类:

  • 已确认异常 :它突出了持续发生的负面趋势。当已确认的异常重复较长时间时,它会清楚地将您引导至立即且不可必得中断情况。因此,重复确认的异常需要您高度关注。
  • 可能异常 :您必须密切关注这种趋势,因为它可能导致长期中断情况。
  • 信息 :这只是给用户的通知,必须非常密切地监控,以缓解任何未来的问题。

基于 AI 的阈值配置文件

基于 AI 的阈值配置文件使用异常检测来确定监视器的状态。与当前使用的静态阈值不同,它是一种动态阈值方法。在当前的静态阈值配置文件中,您必须设置硬编码阈值以确定监视器的状态。如果出现任何问题,只有在超出设置的阈值时才会通知您。

对于基于 AI 的阈值,您将无法设置任何硬编码阈值。相反,我们将拥有动态阈值,这些阈值将根据监视器的行为进行更新。因此,如果出现任何问题,一旦问题开始就会立即通知客户,而不是等待静态阈值被突破。除了动态之外,这还消除了设置轮询策略的需要。轮询策略对于避免间歇性峰值至关重要。在异常检测的情况下,会执行尖峰突发以避免将间歇性尖峰报表为异常。因此,可以避免硬编码的轮询策略。

工作原理?

您可以从现有的阈值配置文件表单中选择静态配置文件或基于 AI 的配置文件。如果您选择“基于 AI 的配置文件”,则会为已启用异常的属性显示严重性选择选项。对于未启用异常的属性,无论配置文件类型选择如何,都将显示静态阈值设置。不能同时选择静态和基于 AI 的配置文件的组合。您将仅针对已启用异常选项的那些属性获得基于 AI 的设置。

在 AI 阈值配置文件中:

  • 每个属性将有两个严重性选项,即可能和已确认。它们代表异常的严重性。如果将可能 严重性设置为故障的,则表示“如果属性中存在可能异常,则使监视器状态为故障的”。确认的情况也是如此。但是两个严重性不能具有相同的状态变化。
  • 每个属性还具有一个自动化选项,如果存在可能或已确认的异常,可以将其映射到所需的操作。

解释异常仪表板

异常仪表板可让您事先轻松解码 IT 基础架构中的任何负面趋势。您可以根据监视器或监视器组选择来查找和过滤异常。

按照以下步骤查看和解释异常仪表板:

  1. 登录到 Site24x7 帐户。
  2. 导航到 主页 > 异常仪表板。


     

  3. 使用 时间段选择器选择一个时间跨度,从“过去 1、6、12、24 小时到一年前”。您可以通过在搜索栏中查找监视器/组名称来对异常进行排序。                            
  4. 此外,您可以根据“已确认、可能和信息” 等各种严重性级别对异常进行分类。生成仪表板后,您可以单击右上角显示的共享此按钮以通过电子邮件共享报表,生成 CSV 或 PDF 与您的团队成员共享。电子邮件只能发送给那些同意从 Site24x7 接收电子邮件的经过验证的用户

仪表板提供了一个拆分视图,您的所有监视器和监视器组都可以在仪表板的左侧看到。在仪表板屏幕的右端,您可以查看请求时间段的异常摘要图表以及每个检测到的异常的具体原因(列在异常历史记录下)。您可以通过在搜索字段中查找监视器/组名称或根据严重性级别过滤来对异常进行排序。异常摘要图显示所选时间段内每天的监视器/监视器组的异常计数。监视器的异常计数使用堆叠的条形图显示。个别异常将列在异常历史部分下,并附有关于每个列出的异常的详细消息。所有列出的异常都将具有针对异常消息的相关严重性标志。此异常描述可让您收集有关异常趋势的详细信息。要进一步了解性能问题的根本原因,请单击随异常描述提供的超链接。

异常摘要图显示所选时间段的数据。但是,如果异常计数超过 100,则图表中仅显示这些天的数据,其余天的其余数据将被忽略。

图表中显示的每个监视器的图例也用作独特的过滤器。您可以使用它在条形图中删除或重新插入特
根本原因报表

单击特定异常消息的“了解根本原因”链接后,系统会提示您一个模态弹出窗口,您可以在其中发现带有指标值的折线图。只需将鼠标悬停在折线图上即可查看特定日期和时间的实际指标值。默认指标值可能因监视器而异。每个监视器都有一个或多个默认属性,异常检测将被启用。但是,除此之外,您还可以使用折线图上方的下拉菜单,在同一时间范围内查看所选监视器的其他性能属性。

启用/禁用异常告警

默认情况下,异常告警将被禁用。您可以通过导航到 管理用户 & 告警管理用户告警编辑/添加用户告警设置>  异常时启用邮件来启用异常告警。 了解有关用户和告警的更多信息。

异常检测:启用的监视器列表和相应的性能属性 

对于大多数监视器,默认情况下会为某些指标启用异常检测。以下是启用异常检测的所有此类监视器及其各自性能属性的列表。

 

监视器类型 性能属性
网站  响应时间 
DNS 服务器  响应时间 
FTP 传输  响应时间 
网页速度(浏览器) 响应时间 
Ping  响应时间 
FTP 服务器  响应时间 
端口(自定义协议)  响应时间 
POP 服务器  响应时间 
SMTP 服务器  响应时间 
网络事务(浏览器)  响应时间 
网络事务  响应时间
邮件传递监视器 响应时间
REST API 监视器 响应时间
SOAP Web 服务监视器 响应时间
Microsoft Hyper-V 服务器

健康状况关键 VM、
逻辑处理器、
虚拟处理器、
接收的 VM 总线中断、
VM 总线节流事件、
每秒接收的
VM 总线中断、每秒发送的 VM 总线中断、
逻辑处理器客户机运行时、
逻辑处理器管理程序运行时、
逻辑处理器总运行时间、
根虚拟处理器、页面错误拦截、
虚拟处理器模拟指令、
虚拟处理器 MSR 访问、
每秒虚拟交换机字节数、每秒
虚拟交换机数据包数、每秒
发送的虚拟交换机字节数、
内存需求 

Microsoft 故障转移集群 

未完成的消息、
资源主机子系统进程重新启动、
资源主机子系统进程、已
用空间、
接收的
字节数、发送的字节数、
接收的
消息、发送的消息、
脱机资源、
正常消息队列长度、
紧急消息队列长度、
重新连接计数、已
使用 (MB)、已
用空间、
资源故障、
资源故障 - 访问冲突、
资源故障 - 死锁

Microsoft办公室 365 

已创建
组、已删除组、
非活动邮箱、
超过警告大小、
使用率低于 25%、
入站、
出站、
活动 Lync 用户、
Web 会议、
电话会议、
IM 会议、
AV 会议、
应用程序共享会议、
音频会话、
文件传输会话、
IM 会话、
视频会话、
应用程序共享会话、
唯一共享点用户、
分配的
许可、获得的许可、
活动部署、
非活动部署、已
用大小 

插件

所有属性

APM Insight - 应用程序

响应时间、
错误计数、
致命计数、

单个组件的响应时间、请求计数和失败计数

个别异常的异常计数

APM insight实例

响应时间、
错误计数、
致命计数、

单个组件的响应时间、请求计数和失败计数

个别异常的异常计数

RUM监视器

应用程序吞吐量、
位置吞吐量、
浏览器吞吐量、
浏览器前端时间、
浏览器错误百分比、
位置网络时间、
应用程序后端时间

经典负载均衡

延迟,
请求计数

应用程序负载均衡

延迟,
请求计数

网络负载均衡

处理的字节数,
消耗的 LCU 总和

简单通知服务

发布的消息数量、
发布大小、
短信成功率

简单存储服务 (S3)

桶大小、
对象数量、
所有请求

AWS 拉姆达

调用 (Sum)、
错误 (Sum)、
持续时间 (Sum)、
限制 (Sum)

弹性 MapReduce

作业失败、
应用程序失败、
读取
S3 字节、写入 S3 字节、
读取
HDFS 字节、写入 HDFS 字节、
步骤失败

Web 应用程序防火墙 (WAF)

允许的请求、
阻止的请求、
计数器请求、
通过的请求

Neptune实例

CPU 利用率、
使用的卷字节数、
可用内存

Neptune

CPU 利用率、
使用的卷字节数、
可用内存

Lightsail 实例

CPU 利用率、
网络输入、
网络输出

Amazon GuardDuty

每天查找

监视器类型 性能属性
EC2 服务器实例监视器

CPU 使用率、
网络输入(接收的字节数)、
网络输出(发送的字节数)

RDS 实例监控

CPU 使用率、
可用存储空间、
数据库连接

Microsoft IIS 服务器 

排队请求、
应用程序重新启动、
收到的
字节数、发送的字节数、
网络统计信息、
缓存总条目、
缓存 API 命中率、
缓存 API 周转率、
缓存使用的机器内存限制百分比、
会话 SQL Server 连接总数、
处理器时间(%)、
IO 数据每秒操作数、
线程数、
私有/虚拟内存 (MB)、
物理线程 数

MicrosoftExchange服务器

数据库缓存大小、缓存完成的
页面请求、
每秒数据库缓存页面故障停顿、
I/O DB 读取平均延迟、
I/O DB 写入平均延迟、
每秒 IO 日志写入、
RPC 响应时间、
RPC 操作、
RPC 编号。慢数据包、
慢 QP 线程、
活动用户计数、
RPC 请求、
活动客户端计数、
每秒发送的集线器 RPC 请求

Microsoft SQL 服务器 

连接、
登录、
批处理请求、
SQL 编译、
复制合并冲突、
目标服务器内存、
总服务器内存、
SQL 高速缓存内存、
优化器内存、
授予的工作空间内存、
内存授予挂起、
检查点页面、
延迟写入、
页面读取、
页面写入、
页面拆分、
全面扫描、
探测扫描、
范围扫描、
错误数、
计划缓存命中率、
缓存页面、
缓存对象、
排队作业、
失败作业、
锁定请求、
锁定超时、
死锁 

服务器监视器 

CPU 使用率、
内存使用率、
已用物理内存、
已用交换内存、
内存页入、
内存页错误、
15 分钟平均、
磁盘读取、
磁盘写入、
上下文切换、
处理器中断

Microsoft共享点服务器

活动请求、
活动会话、
处理请求的平均时间、
每秒获取数据请求、每秒
插入请求、每秒
更新请求、每秒
删除请求、每秒
失败插入请求、
平均数据获取持续时间、
平均插入持续时间、
平均更新持续
时间、表单会话的平均时间、
事务完成率、
请求处理时间、
每秒 VISIO 请求数、每秒
错误数
、队列中的请求数、
拒绝请求、
每秒 ASP 请求数、
当前会话数、
每秒开始事务数、
待处理事务数、
网站集contentdb 中的警告计数,
查询失败,
查询成功

帮助手册 报表 AI powered 异常报表

O