根本原因分析报表 (RCA)

每次检测到停机时间时,都会触发根本原因分析(RCA) 报告,并根据告警联系人和媒介将其发送给用户。生成的 RCA 提供了停机背后的实际原因,以及用于诊断连接问题的跟踪路由图。

例如,服务器由于进程使用率高而崩溃。Site24x7 会将监视器声明为关闭并向用户发送 RCA。服务器监控代理将在服务器崩溃之前按 CPU、内存和其他事件收集排名靠前的进程,并将其呈现在 RCA 报表中。这将有助于更快地进行故障排除并防止将来出现类似的性能下降问题。

讨论了 Windows 和 Linux 服务器的 RCA 报表的不同组成部分:

Windows 服务器的 RCA:

当在 Windows 服务器中检测到停机时,RCA 报表中生成的各种组件如下:

  1. 监视器详细信息:列出监视器名称、类型、IP 地址、主机名、停机时间等基本监视器详细信息
    RCA report for Windows 01 
  2. CPU排名靠前的进程(包括最近 5 分钟的平均值):使用最多 CPU 的排名靠前的进程的图形表示。此外,另一个图表显示了过去 5 分钟内使用最多内存的排名靠前的进程
  3. 内存排名靠前的进程(包括最近 5 分钟的平均值):使用最多内存的排名靠前进程的图形表示。此外,另一个图表显示了过去 5 分钟内使用最多内存的排名靠前的进程 
    RCA report for Windows 02 
  4. 磁盘详细信息:列出磁盘及其总大小和可用空间
  5. 硬盘状态:给出硬盘的大小、它们的当前状态以及硬盘上发生的任何错误的任何描述
    RCA report for Windows 03 
  6. 跟踪路由:要在 RCA 中启用跟踪路由分析,用户必须提供防火墙访问权限以获取 plus.site24x7.com 域的跟踪路由。启用此功能将使用户能够深入了解连接问题背后的实际原因并尽早采取纠正措施
    Traceroute for Windows
  7. 事件日志:记录事件日志的类型(警告、错误、审核失败、严重)、它们的描述、写入时间及其来源
    RCA report for Windows 04 
  8. CPU Fan Status: CPU 风扇的当前状态
  9. 登录用户:对该服务器上的活动用户数进行分类
  10. 最近 30 天内安装的软件:最近 30 天内在您的服务器中安装的软件列表

Linux 服务器的 RCA:

当在 Linux 服务器中检测到停机时,RCA 报表中生成的各种组件如下:

  1. 监视器详细信息:列出监视器名称、IP 地址、主机名、停机原因、停机时间等基本监视器详细信息 
  2. CPU排名靠前的进程(包括最近 5 分钟的平均值):使用最多 CPU 的排名靠前的进程的图形表示。此外,另一个图表显示了过去 5 分钟内使用最多内存的排名靠前的进程
  3. 内存排名靠前的进程(包括最近 5 分钟的平均值):使用最多内存的排名靠前进程的图形表示。此外,另一个图表显示了过去 5 分钟内使用最多内存的排名靠前的进程 
    RCA report for Linux 01
  4. CPU 利用率:关于负载百分比、每秒上下文切换、每秒中断的数据以表格形式列出并给出 
  5. 磁盘利用率:列出磁盘及其总大小和可用空间
  6. 内存统计:列出了有关内存的指标,包括总、已用、空闲、缓冲区空闲/已用、总虚拟空闲/已用
  7. 网络详细信息:指定有关发送/接收的数据包、网络连接状态、传输和接收流量的信息
    RCA report for Linux 02
  8. 跟踪路由:要在 RCA 中启用跟踪路由分析,用户必须提供防火墙访问权限以获取 plus.site24x7.com 域的跟踪路由。启用此功能将使用户能够深入了解连接问题背后的实际原因并尽早采取纠正措施
    Traceroute for Linux
  9. 用户会话:该服务器上的活动用户数被分类
  10. 磁盘错误:来自内核的磁盘错误,包括 I/O 错误和文件系统错误
  11. 驱动程序消息:来自内核的错误消息将在此处列出
  12. Syslogs: 说明特定系统日志的进程 ID、错误消息、格式化时间和严重性级别
    RCA report for Linux 03

相关文章: