监视器组
监视器组是一个通俗易懂的概念,使您能够无缝地组织您的监控资源并简化管理。它允许您按业务应用程序、地理位置、类型、资源所有权等组织资源(监视器)。假设您有一个 Web 应用程序,它使用某些数据库、应用程序服务器和物理服务器来托管服务。现在,借助“监视器组”概念,您可以将所有这些资源快速集合在一个支架下,从而促进一般报表,还有助于深入了解单个资源和组在中断期间的实时和历史操作趋势。此外,您还可以在主监视器组下添加最高5级的嵌套子组,从而使用 业务视图。业务视图清楚地用于在此上下文中表示“业务应用程序”的状态。
添加监视器组
监视器组和子组可帮助您无缝组织监控的资源并简化管理。配置监视器组后,将自动生成关联的业务视图 ,然后提供这些组及其多个子组的各种连接和依赖关系的可视化表示。监视器组在以下情况下创建:
- 系统生成的组是在深度发现 Internet 资源监视器后创建的
- 使用默认模板创建业务视图框架
- 手动配置
系统生成的组:
互联网服务深度发现可让您智能地发现托管域背后的所有互联网资源。在深度发现期间,Site24x7 在直观向导的帮助下自动发现并建议该特定域/子域的所有可能的 Internet 服务监视器。配置这些监视器后,Site24x7 将自动设置一个仅包含这些监视器的监视器组。您可以通过添加子组并将相关监视器关联到它来实现进一步的自定义。
使用默认模板:
配置任何监视器组的最简单方法是使用 Site24x7 提供的默认模板。您可以选择 Site24x7 提供的预定义业务视图模板来创建具有相关子组的监视器组。创建空监视器组后,您可以通过将更多监视器关联到每个组来立即自定义不同的组和子组。它让您可以在几分钟内查看资源的个性化业务视图。可用的模板有:
- 网站/端口/DNS
- 应用服务器
- AWS 基础设施
- 网络
- 网站/服务器
- 登录到 Site24x7 客户端
- 导航到主页 > 监视器组 > 使用模板创建组
- 您将看到一个仪表板视图,其中将列出多个模板。您可以单击仪表板中的模板以立即构建相关的监视器组。
默认情况下,监视器组和关联的子组将没有任何关联的监视器。您可以稍后将多个监视器关联到组和子组。
手动配置:
最后,您还可以通过在添加监视组表单中指定相关参数来手动配置监视器组。按照下面列出的步骤来构建您的监视器组:
- 登录到 Site24x7 客户端。
- 单击管理>清单>监视器组。
- 单击(+)图标或 从监视器组页面右上角列出的下拉列表中选择创建组以设置监视器组。
- 现在在添加监视器组页面中提供以下详细信息 以完成监视器组设置:
- 显示名称:指定监视器组的名称以便于识别。
- 描述:提供组的描述。
- 组类型: 从所有类型/Web/服务器/数据库中选择一个组类型,以根据类型对现有的监控资源进行细分。选择组类型后,您可以通过在其中添加或删除监视器来自定义监视器组。选择“所有类型”以将所有监视器关联到组,无论类型如何。
监控各个组类型下的资源:
网络组:
网站、DNS 监视器、域过期监视器、SSL 证书监视器、 真实浏览器监视器、网页分析器、REST API 监视器、SOAP 监视器、Web 应用程序监视器、网站毁损监视器、APM insight监视器、真实用户监视器、Android 和 iOS 移动 APM
服务器组:
服务器监视器, VCenter 监视器, VCenter Cluster 监视器, MS Exchange 监视器, Microsoft Active Directory, Microsoft IIS Server, Microsoft Hyper-V Server, Microsoft SharePoint Server, Microsoft BizTalk Server, Microsoft Office 365, Windows Cluster, Plugins, Probe, Classic Load Balancer , 应用负载均衡, Docker 监视器
数据库组:
SQL Server、RDS 实例、DynamoDB
- 选择监视器: 通过从现有监视器资源池中关联多个监视器来自定义监视器组。您可以选择所有资源,从列表中手动选择相关监视器,甚至选择不将任何监视器与组关联。但是,您必须关联至少一个监视器来帮助确定组的整体状态。
- 监视器计数阈值以决定监视器组的状态:输入首选监视器计数阈值以解密监视器组的状态。
Site24x7 根据用户配置的监视器计数预设阈值决定监视器组的状态。了解如何。
如果您输入“0”作为监视器计数阈值,Site24x7 将考虑监视器组中的所有监视器来确定组的状态。默认阈值始终为“1”。
自动配置(仅限 AWS 资源)
AWS 用户可以利用我们的自定义标签自动将资源汇总到监视器组中:group_site24x7。您所要做的就是打开支持的的云服务的 AWS 管理控制台,并为您想要的资源分配一个区分大小写的标签,其中包含以下键:group_site24x7 以及您选择的值。例如,如果您有多个资源场,每个资源场都执行特定的功能(Web 服务器、消息代理、数据库),您可以为每个场自动创建单独的监视器组,以直观地监控为您的部署提供支持的所有计算实例的健康状况。
如何将标签添加到 AutoScaling 组的步骤如下所示:
- 登录到 Amazon Elastic Compute Cloud (EC2) 控制台。
- 在左侧导航窗格中的Auto Scaling下,选择Auto Scaling 组。选择您的Auto Scaling 组。
- 单击标签选项卡并选择添加/编辑标签(该页面列出了 AutoScaling 组的所有现有标签)
- 现在,选择添加标签,然后输入键:group_site24x7 和您选择的值(例如 production_infra)
- 保持选中标签新实例复选框以将标签应用于所有新启动的实例。(这可确保 Site24x7 监视器组保持最新)。
- 选择保存。
监视器组创建
完成后,Site24x7 会自动创建一个名为 production_infra 的新监视器组,并在下一次轮询中将所有 EC2 实例汇总到该组中。
始终同步
您分配的标签会在每次轮询(5 分钟)期间与 Site24x7 同步。这可确保创建的 监视器 组始终处于最新状态。
自定义依赖配置
在您的 IT 基础架构发生潜在的灾难性故障期间,由于冗余告警,您很可能会很快耗尽所有通知信用。Site24x7 具有内置的误报保护系统,可让您在监视器组中配置依赖监视器,以缓解此类最坏情况。您必须在监视器组中设置一个依赖资源,然后根据其停止状态指示和禁止发送到其他资源的告警。请按照以下步骤为其他资源激活告警抑制 ,从而保护您的告警信用免遭意外使用。探索有关告警抑制的更多信息。
- 从下拉列表中选择一个依赖资源。您最多可以选择 5 个监视器作为依赖资源。
您可以根据您的智能资源分组选择依赖资源。如果您的监视器组中有一组应用服务器监视器(URL 监视器、SSL 等)和一个防火墙监视器(Ping 监视器/端口监视器),您可以通过关联这些监视器来控制应用服务器监视器的告警功能监控防火墙监视器的停止状态,从而为您的帐户启用虚假告警保护。您最多可以添加 5 个监视器作为依赖资源。
依赖资源的轮询频率将被调低到最小值,以确保“正常”时检查之间的延迟和“停机”间隔时检查之间的延迟明显小于依赖它的任何资源。 - 单击复选框“从属监视器停机时抑制告警”以激活其他资源的告警抑制。
在轮询期间,如果监视器组中的特定资源被识别为关闭,Site24x7 将首先自动检查并验证依赖监视器的状态,甚至在通知您特定监视器的状态之前。
如果监视器组中的特定资源同时被检测为关闭,则从属监视器被检测为:
- 停机,Site24x7 将抑制针对特定资源的告警。
- 正常,Site24x7 会将特定资源识别为停机并触发告警。
- 轮询正在进行中, Site24x7 将等待相关资源的状态,然后再决定是否触发该资源的告警。
- 在维护期间, Site24x7 不会触发相关资源的任何告警。
当根据监视器组中的依赖配置为监视器抑制告警时,告警日志中会记录一个条目,提及相同的内容。
激活此设置后,将禁止所有告警模式,包括 SMS、语音、IM、移动推送通知和 Web 浏览器推送通知。 - 单击保存。
创建/修改子组
Site24x7 允许您根据需要创建多个监视器组和子组,从而自定义您的 IT 基础架构分组。它有助于轻松管理您的监控基础架构。在父监视器组下创建的任何监视器子组都可以从主页 > 监视器组或管理员清单选项卡中的监视器组列表视图(在嵌套视图中)查看。您必须单击“显示子组按钮”才能在监视器组仪表板中启用它。父监视器组下的所有监视器以及子组中的关联监视器也将显示在主页选项卡 中监视器组摘要屏幕的监视器列表下. 您始终可以编辑或删除现有的监视器子组。子组仅作为设置业务视图的一部分而创建;它不是为了任何告警抑制或状态传播。
如何创建子组?
您可以通过以下任何方式创建子组:
- 访问主页 > 监视器组 > 监视器组详细信息仪表板>选择您偏好的监视器组。
- 访问 显示在监视器组详细信息仪表板顶部的图标,然后从下拉列表中选择子组。添加子组窗口打开后,您可以开始添加/编辑/删除子组。
仅为父监视器组提供添加子组选项。
- 另一种方法是访问业务视图仪表板。在父监视器组内双击鼠标以 添加子组/编辑组; 或者,在子组内双击鼠标以创建另一个嵌套子组,编辑/删除子组。
- 您可以单击添加子组按钮来创建一个新的子组。通过单击图标“X”,您可以立即删除子组。
- 为您的子组指定名称和描述。
- 子组类型: 从所有类型/Web/服务器/数据库中选择一个子组类型, 以根据类型细分您现有的监控资源。选择组类型后,您可以通过关联或从中删除监视器来自定义子组。选择“所有类型”以将所有监视器关联到子组,无论类型如何。
- 选择监视器: 通过将多个监视器与现有监视器资源池相关联来自定义子组。您可以选择所有资源,从列表中手动选择相关监视器,甚至选择不将任何监视器与组关联。但是,您必须关联至少一个监视器来帮助确定子组的整体状态。
- 监视器计数阈值以决定组的状态:输入首选监视器计数阈值以破译子组的状态。了解 Site24x7 如何决定组的状态。
- 在业务视图仪表板中,单击 右上角显示的修改业务视图图例。这将使您能够添加/编辑/删除子组并同时修改业务视图。
您无法从 管理 > 资源清单 >监视器组屏幕创建子组。但是,您始终可以通过选择“显示子组”按钮查看监视器组的所有关联子组(在嵌套视图中)。
创建监控子组的规则和限制:
- 每个监视器组都可以有自己的子组链,最高可达 5 级。(A1 至 A5)
- 可以在父监视器组下添加的子组的数量没有限制。(A2 到 n2)
- 一个监视器组只能有一个tree,它自己作为父组(A1为父级的tree只能是一个tree)
- 任何特定的子组每棵tree只能出现一次。它不能与第二个监视器组关联,一旦它首先与一个监视器组关联(B3 只能作为子组存在一次,位于您帐户中的任何监视器组下。)
子组的报表和维护
组过滤
以下用户表单/仪表板中的监视器组过滤可用。在所有这些情况下,只会列出父监视器组。然而,无论何时选择父监视器组,与父组的子组关联的监视器也将被考虑并自动添加到列表中。
- 用户告警表单
- 计划维护表
- 计划报表
- 状态页表单
- 操作仪表板表格
- 公开报表
业务视图
监视器组中的监视器子组提供了一种简单而直观的方式来组织您的资源并简化管理。通过概览基础设施,它可以帮助您快速关注监视器中的任何异常模式。Site24x7 监视器组业务视图选项卡可以作为主页选项卡中监视器组详细信息视图屏幕的一部分访问。业务视图可立即帮助您发现异常值并检测监视器组和相关子组中的异常监控模式。这些可操作的见解可用于就如何最好地管理您的基础架构做出决策。通过在父监视器组下设置多个监视器子组,您可以以前所未有的方式可视化您的 IT 基础架构。
业务视图允许您轻松过滤出有关单个监视器、监视器组和子组的可用性的详细信息。它有一个内置的折叠/展开组工具 和放大检查器。可 用于折叠或展开监控子组。在此 视图中 -每当监视器子组关闭时,圆圈会间歇性地闪烁红色以吸引您的注意力。但是,父监视器组永远不会崩溃。同样,放大检查器工具可用于放大和缩小 监视器子组,以收集监视器组中各个监视器的准确监视器状态。监视器组/子组中的每个监视器都被描绘为一个圆圈,每个圆圈都用颜色编码来展示当前的监视器状态。红色圆圈标识为停机,橙色圆圈标识为 危急的,黄色圆圈标识为 故障的,绿色圆圈标识为 正常。只需将鼠标悬停在每个圆圈上,即可获得有关每个子组中活动监视器数量和各个监视器状态的详细信息。在业务视图中,各个子组将呈现为圆圈,每个圆圈的外边界都涂有颜色以描述组的状态。如果您想设置默认业务视图,只需单击刷新按钮. 在默认视图中,您可以一次查看所有监视器圆圈的扩展圆圈。
如果您希望查看特定监视器中断的性能统计信息或根本原因,您也可以查看它。只需单击标识监视器的相关圆圈。对于状态为正常、危急的或故障的的监视器,性能统计报表将在鼠标单击时呈现。对于停机监视器,将生成根本原因分析报表(如果可用)。
正常、危急的或故障的监视器的性能统计报表突出显示基本监视器详细信息以及中断持续时间、全局状态和性能图。
用于停机监视器的 RCA 将根据所选监视器类型突出显示基本监视器详细信息、停机原因和持续时间以及监视器重新检查报表或跟踪路由详细信息。
事件时间线小窗件
事件时间线在选定的时间范围内记录您的业务视图中监视器的所有过去事件。您可以识别/解码过去的各种事件,包括停机、严重、故障、维护、暂停或异常。每个事件都有颜色编码,便于识别。可以深入挖掘事件以提取最大数据并便于故障排除。您还可以跟踪特定时间段内的实际中断期和总中断持续时间。它提供高达一毫秒的粒度。
您还可以通过添加或更新监视器组和子组来修改业务组。使用 修改业务视图。或者,在监视器组/子组内双击以添加/编辑/删除相同的内容。
查看监视器组控制面板
监视器组可帮助您按业务应用程序、地理位置、类型或资源所有权组织资源(监视器)。对于资源管理来说,这是一个简单的概念。您可以从一个控制面板轻松访问所有监视器组,而无需太多导航。它还根据状态颜色代码识别每个监视器组。停机监视器以红色分组。橙色用于标识处于危急状态的监视器,黄色标识处于故障的状态的监视器。正在维护的监视器以紫色分组,可用监视器以绿色显示;最后,被挂起的监视器显示为灰色。
选择相关监视器组后,您可以进一步了解监视器组在选定时间段内的可用性和性能等指标。摘要控制面板借助事件时间线(提供有关各种中断和异常事件的信息,包括中断持续时间和确切的中断周期)、监视器列表(父监视器组中的所有监视器将显示在监视器列表)及其状态。中断控制面板可帮助您深入了解资源并跟踪组中所有单个监视器的性能响应时间(以毫秒为单位)和中断持续时间,从而可以查看单个监视器的停机时间。 您可以使用业务视图收集有关您的监视器如何在监视器组中组织以及它们如何单独执行的高级图片。 异常选项卡使用表格报表跟踪并描绘指定范围内的所有性能偏差。您可以使用放大检查器导航到确定的时间范围以跟踪性能。