帮助手册 服务器指标 服务和进程监控

服务和进程监控

监控 Windows 和 Linux 服务器上运行的重要服务和进程以及  在 .NET 平台上开发Windows 服务。观看有关如何添加服务和流程 的快速视频

为什么要监控服务和流程? 

仅监视 CPU、磁盘、内存使用情况不足以进行完整的服务器健康检查。监控服务器上运行的每个服务和进程的性能对于全面分析系统资源的负载同样重要。 

阅读我们的博客以了解服务和进程监控的重要性。

Site24x7 如何进行流程和服务监控?

进程监控是根据进程名称、路径和进程命令行参数完成的。如果这些值发生变化,将被视为一个新过程。

注意:如果参数发生了变化,那么您可以删除该进程并通过从服务器发现它再次添加它们以进行监视。

先决条件

  • 足够的许可。请参阅本文以了解每个服务器监视器可以添加多少个进程/服务。
  • 确保服务/进程存在于相应的服务器中。只有这样,它才会在Discover Services and Processes窗口中列出。
  • 确保服务/进程正在运行。只会发现活动的服务/进程。

查看本文以查看在 Site24x7 中未添加服务/进程进行监控时的故障排除步骤。

添加用于监控的服务和进程

可以通过以下方式之一添加服务和流程:

  • 配置规则:创建配置规则以在添加 Windows/Linux 服务器监视器后应用。这可以通过添加您希望监控的 Linux 进程/Windows 服务的名称来手动完成(添加进程/添加服务)。或者,您可以将自动发现选项(自动发现服务、自动发现进程)设置为 True,即代理会自动将服务器中运行的服务/进程与我们的默认列表匹配,并自动添加它们以进行监控。  
  • 手动添加:单击服务和进程选项卡 (Windows)/进程选项卡 (Linux)中的发现服务和进程/发现进程按钮。选择您要监控的服务/进程并添加它们以进行监控。


管理动作

服务和进程/进程选项卡中,单击操作下的三横杠图标图标以执行这些启动、停止和删除操作。

用户权限:只有Site24x7 超级管理员和 Site24x7 管理员可以执行这些操作。

  • 启动/停止服务(仅适用于 Windows):
    您也可以从Server Tools执行此操作。
    提示:使用IT 自动化模板自动启动、停止和重新启动 Windows 服务。   
  • 删除服务/进程:
    从监控中删除服务/进程。这只会将它们从监控中删除,而不是从您的服务器中删除。
    确保服务器监视器已启动以删除服务/进程。
  • 向其他服务器批量添加/删除特定服务/进程:
    使用添加到其他服务器监视器从其他服务器监视器中删除按钮分别向/从其他服务器监视器添加/删除服务/进程。知道如何
    确保服务器监视器已启动以删除服务/进程。

性能指标

参数 描述
状态 了解服务/进程是 Up 还是 Down
CPU (%) 进程使用的 CPU 百分比
内存 (%) 进程使用的内存百分比
实例 特定实例发生的次数
线程数 进程中运行的线程数 
处理计数 进程的对象表中的对象句柄数 
仅适用于 Linux 进程:
用户 启动流程的用户角色
优先 根据优先级值查看进程。Linux 的取值范围为 -20 到 19,Windows 的取值范围为 0 到 31。具有较高优先级值的进程将获得比较低优先级进程更多的 CPU 时间。

注意:在 Windows 中,列出了与特定服务关联的进程,并且该进程的 CPU 和内存使用情况显示在Services and Processes下。 

指标是如何计算的?

进程的性能指标、CPU 和内存利用率是使用“ps”命令计算的。

例如,要获取名为“sshd”的进程的 CPU 和内存百分比,请执行以下命令:

/bin/ps -eo pid, pri, fname, pcpu, pmem, nlwp, command, args | grep -i 'sshd' | grep -v grep

注意:第四个索引值(pcpu)代表进程CPU,第五个索引值(pmem)代表进程内存

如果服务器中存在的内核数超过 1,则从“ps”命令获得的 CPU 值可能超过 100%。因此,进程的 CPU 百分比基于每个内核计算如下:

进程 CPU =(CPU 值)/(核心数)

例如:如果从“ps”命令获得的进程的 CPU 值为 200,对于 8 核处理器,

进程 CPU = (200) / 8

因此,进程 CPU = 25%

设置阈值

可以设置阈值:

  • 对于单个服务/进程 - 单击“服务和进程/进程”选项卡下 相应进程/服务旁边的“操作”下的三横杠图标 图标,并设置 CPU 使用率、内存使用率、实例数、线程数和句柄数的阈值。  
  • 对于所有服务/进程(在全局级别) - 将鼠标悬停在服务器名称旁边的三横杠图标上,然后单击编辑。在编辑 Server 监视器页面中,单击阈值和可用性旁边的铅笔图标。定义指标的阈值,包括 CPU 使用率、内存使用率、线程和句柄计数。 

根据阈值设置(个人和全局),将触发告警。 

告警

要在服务/进程关闭时收到告警,请在“操作”下该特定服务/进程 的“编辑阈值配置文件”窗口中启用“当进程/服务关闭时通知”选项。在启用此选项时,您可以选择告警类型为“故障”或“停机”。也可以在服务器监视器的阈值配置文件的编辑阈值配置文件窗口中为整个服务器监视器完成此设置(编辑服务器监视器>阈值和可用性>铅笔图标)。

  • 如果在添加到 Site24x7 时服务/进程未处于活动/运行状态,则服务/进程将以 Down 状态添加。在这种情况下,不会触发任何告警。
  • 如果在添加过程中服务/进程处于活动/运行状态,则服务/进程将以 Up 状态添加。在这种情况下,稍后当服务/进程在监视器中关闭时,将触发关闭告警。
提示:关联 IT 自动化模板以自动解决两个阈值级别的问题。如果您还没有 IT 自动化,请添加一个

使用正则表达式 (RegEx) 进行服务和进程监控:

启用使用 RegEx选项(进程/服务和进程选项卡 >进程操作>三横杠图标 图标)以借助正则表达式描述进程参数。这样,您不必在每次重新启动时删除并重新添加进程。默认情况下,它设置为No

启用 RegEx 后,Linux/Windows 监控代理会将正在运行的进程/服务参数与配置的 RegEx 进行匹配,并确定进程/服务的状态。 linux-process-monitoring" target="_blank">阅读有关此的用例

对于 Windows,请确保代理版本为 19.5.0 及更高版本以启用 RegEx。

性能报表

使用服务和进程报表查看您的 Site24x7 帐户中两个或更多服务器的服务和进程。转到报表>服务器监视器 >服务器-服务报表/服务器-进程报表。 

安全

服务和进程根据服务/进程名称、路径和进程命令行参数进行监控。命令行参数和路径被加密并存储在 Site24x7 中。阅读有关代理安全的更多信息。

许可

了解每个服务器监视器可以监视多少个服务和进程。如果您有任何与之关联的应用程序,则许可会有所不同。 了解更多。 

相关文章:

帮助手册 服务器指标 服务和进程监控