人工智能支持的异常报表
Site24x7 的人工智能异常框架使用稳健的主成分分析 (RPCA) 和矩阵草图算法来检测监视器关键性能属性中的任何异常峰值或异常,即响应时间、CPU 使用百分比、内存利用率等;此外,在 Web 客户端内的详细表格或图形仪表板中以及通过告警电子邮件通知您此类峰值。您的所有 KPI 都会与季节性基准值进行比较。异常报表可帮助您微调资源性能并保护您的基础设施免受任何不可预见的问题。您可以通过生成 CSV、PDF 或通过电子邮件与您的团队共享异常情况。
内容
概述
对正在监控的指标进行异常检测的想法是识别给定系列中的任何异常尖峰或异常。任何要启用异常检测的监控措施都被视为时间序列,其中,它在均匀间隔内根据时间进行轮询。根据某些静态的数学不等式,从长远来看不会给出上下文一致的结果。人工智能 (AI)可以通过一种旨在立即检测异常的方法来解决这个问题。
基于 AI 的方法具有不同的特点,例如:
- 趋势平滑:趋势处理捕获整体模式方向(上升或下降)
- 处理季节性:这是在每个时间范围内或多或少地重复出现的模式结构
- 鲁棒性:使其不受微不足道的性能峰值的影响。
使用异常引擎预测趋势
异常引擎的循环由多个阶段组成,包括根据 AI 训练数据处理来自数据收集器的传入数据,生成已确认的异常,再到通知异常本身。异常 Engine 具有用于异常检测的定量和定性比较模型。使用异常引擎进行预测涉及两个阶段:
异常事件生成
这个阶段的主要目的是执行重量级处理并生成“事件”。异常检测引擎每 15 分钟从 Site24x7 数据收集器代理收集一次指标。用于单变量异常检测,该数据将与机器学习模型的训练数据进行比较,该训练数据是过去两周各自一天的每小时第 95 个百分位值。例如,如果发送星期五的数据用于异常检测,那么最后两周的星期五的值将被视为机器学习模型的训练数据。这有助于实现数据的季节性。数据的第 95 个百分位被考虑用于训练,以删除存在的极值(在第 95 个百分位,前 5% 的最高值被删除,这也将删除训练数据中的任何异常峰值)。
对于多变量异常检测,Site24x7 的数据收集代理每 15 分钟再次将数据推送到异常检测平台。相关属性的最后两周每小时的第 95 个百分位值用于训练算法。如果该组合被检测为异常,则将确定导致该组合成为异常的属性。
基于与训练数据的比较,然后生成事件并将其定义为L1、L2 和 L3 值,其中 L3 值最有可能成为异常。
确定异常严重性的域评分
此阶段还通过考虑在相关监视器中看到的异常,为异常生成添加了一个定性模型。事件总结并给出一个分数,根据该分数决定“异常的严重性”。当异常发生时计划异常评分任务时,异常引擎会检查在过去 30 分钟内是否存在任何依赖监视器的异常。根据导致监视器异常的属性以及这些属性与预期值的偏差百分比,对各个监视器进行评分。
通常会考虑以下方法(按照下面指定的相同顺序)来确定最终分数:
- 同一监视器的另一个属性检测为异常
- 检测到异常的依赖监视器
- 父/子监视器异常
- 监视器,分组在同一监视器组下被检测为异常
- 其他具有相同标签(用户定义标签)的监视器出现异常
- 具有相同服务器名称/相同完全限定域名 (FQDN) 的监视器出现异常
您可以阅读我们的Kbase 文章,了解用于域评分和严重性基准测试的各种案例。
最后,根据检测到的异常的领域得分、依赖关系和增加的严重性等因素,将异常的严重程度分为三类:
- 已确认异常 :它突出了持续发生的负面趋势。当已确认的异常重复较长时间时,它会清楚地将您引导至立即且不可必得中断情况。因此,重复确认的异常需要您高度关注。
- 可能异常 :您必须密切关注这种趋势,因为它可能导致长期中断情况。
- 信息 :这只是给用户的通知,必须非常密切地监控,以缓解任何未来的问题。
基于 AI 的阈值配置文件
基于 AI 的阈值配置文件使用异常检测来确定监视器的状态。与当前使用的静态阈值不同,它是一种动态阈值方法。在当前的静态阈值配置文件中,您必须设置硬编码阈值以确定监视器的状态。如果出现任何问题,只有在超出设置的阈值时才会通知您。
对于基于 AI 的阈值,您将无法设置任何硬编码阈值。相反,我们将拥有动态阈值,这些阈值将根据监视器的行为进行更新。因此,如果出现任何问题,一旦问题开始就会立即通知客户,而不是等待静态阈值被突破。除了动态之外,这还消除了设置轮询策略的需要。轮询策略对于避免间歇性峰值至关重要。在异常检测的情况下,会执行尖峰突发以避免将间歇性尖峰报表为异常。因此,可以避免硬编码的轮询策略。
工作原理?
您可以从现有的阈值配置文件表单中选择静态配置文件或基于 AI 的配置文件。如果您选择“基于 AI 的配置文件”,则会为已启用异常的属性显示严重性选择选项。对于未启用异常的属性,无论配置文件类型选择如何,都将显示静态阈值设置。不能同时选择静态和基于 AI 的配置文件的组合。您将仅针对已启用异常选项的那些属性获得基于 AI 的设置。
在 AI 阈值配置文件中:
- 每个属性将有两个严重性选项,即可能和已确认。它们代表异常的严重性。如果将可能 严重性设置为故障的,则表示“如果属性中存在可能异常,则使监视器状态为故障的”。确认的情况也是如此。但是两个严重性不能具有相同的状态变化。
- 每个属性还具有一个自动化选项,如果存在可能或已确认的异常,可以将其映射到所需的操作。
解释异常仪表板
异常仪表板可让您事先轻松解码 IT 基础架构中的任何负面趋势。您可以根据监视器或监视器组选择来查找和过滤异常。
按照以下步骤查看和解释异常仪表板:
- 登录到 Site24x7 帐户。
- 导航到 主页 > 异常仪表板。
- 使用 时间段选择器选择一个时间跨度,从“过去 1、6、12、24 小时到一年前”。您可以通过在搜索栏中查找监视器/组名称来对异常进行排序。
- 此外,您可以根据“已确认、可能和信息” 等各种严重性级别对异常进行分类。生成仪表板后,您可以单击右上角显示的共享此按钮以通过电子邮件共享报表,生成 CSV 或 PDF 与您的团队成员共享。电子邮件只能发送给那些同意从 Site24x7 接收电子邮件的经过验证的用户。
仪表板提供了一个拆分视图,您的所有监视器和监视器组都可以在仪表板的左侧看到。在仪表板屏幕的右端,您可以查看请求时间段的异常摘要图表以及每个检测到的异常的具体原因(列在异常历史记录下)。您可以通过在搜索字段中查找监视器/组名称或根据严重性级别过滤来对异常进行排序。异常摘要图显示所选时间段内每天的监视器/监视器组的异常计数。监视器的异常计数使用堆叠的条形图显示。个别异常将列在异常历史部分下,并附有关于每个列出的异常的详细消息。所有列出的异常都将具有针对异常消息的相关严重性标志。此异常描述可让您收集有关异常趋势的详细信息。要进一步了解性能问题的根本原因,请单击随异常描述提供的超链接。
单击特定异常消息的“了解根本原因”链接后,系统会提示您一个模态弹出窗口,您可以在其中发现带有指标值的折线图。只需将鼠标悬停在折线图上即可查看特定日期和时间的实际指标值。默认指标值可能因监视器而异。每个监视器都有一个或多个默认属性,异常检测将被启用。但是,除此之外,您还可以使用折线图上方的下拉菜单,在同一时间范围内查看所选监视器的其他性能属性。
启用/禁用异常告警
默认情况下,异常告警将被禁用。您可以通过导航到 管理> 用户 & 告警管理> 用户告警> 编辑/添加用户> 告警设置> 异常时启用邮件来启用异常告警。 了解有关用户和告警的更多信息。
异常检测:启用的监视器列表和相应的性能属性
对于大多数监视器,默认情况下会为某些指标启用异常检测。以下是启用异常检测的所有此类监视器及其各自性能属性的列表。
监视器类型 | 性能属性 |
网站 | 响应时间 |
DNS 服务器 | 响应时间 |
FTP 传输 | 响应时间 |
网页速度(浏览器) | 响应时间 |
Ping | 响应时间 |
FTP 服务器 | 响应时间 |
端口(自定义协议) | 响应时间 |
POP 服务器 | 响应时间 |
SMTP 服务器 | 响应时间 |
网络事务(浏览器) | 响应时间 |
网络事务 | 响应时间 |
邮件传递监视器 | 响应时间 |
REST API 监视器 | 响应时间 |
SOAP Web 服务监视器 | 响应时间 |
Microsoft Hyper-V 服务器 | 健康状况关键 VM、 |
Microsoft 故障转移集群 | 未完成的消息、 |
Microsoft办公室 365 | 已创建 |
插件 | 所有属性 |
APM Insight - 应用程序 | 响应时间、 单个组件的响应时间、请求计数和失败计数 个别异常的异常计数 |
APM insight实例 | 响应时间、 单个组件的响应时间、请求计数和失败计数 个别异常的异常计数 |
RUM监视器 | 应用程序吞吐量、 |
经典负载均衡 | 延迟, |
应用程序负载均衡 | 延迟, |
网络负载均衡 | 处理的字节数, |
简单通知服务 | 发布的消息数量、 |
简单存储服务 (S3) | 桶大小、 |
AWS 拉姆达 | 调用 (Sum)、 |
弹性 MapReduce | 作业失败、 |
Web 应用程序防火墙 (WAF) | 允许的请求、 |
Neptune实例 | CPU 利用率、 |
Neptune | CPU 利用率、 |
Lightsail 实例 | CPU 利用率、 |
Amazon GuardDuty | 每天查找 |
监视器类型 | 性能属性 |
EC2 服务器实例监视器 | CPU 使用率、 |
RDS 实例监控 | CPU 使用率、 |
Microsoft IIS 服务器 | 排队请求、 |
MicrosoftExchange服务器 | 数据库缓存大小、缓存完成的 |
Microsoft SQL 服务器 | 连接、 |
服务器监视器 | CPU 使用率、 |
Microsoft共享点服务器 | 活动请求、 |