自动重启服务器
自动重启服务器以及任何特定参数(如果有)以确保持续的服务器性能。
用例:
考虑使用 Site24x7 的服务和进程监控来监控电子商务应用程序。出乎意料的是,服务变得无响应。分析发现,该服务的内存使用率超过 90%。
问题陈述:
在生产环境中手动重启所有服务器的选项可能很乏味,实际上是不可能的。该过程也可能很耗时,并且在应用程序变为恶意之前为时已晚。这可能会影响其他应用程序服务,并最终影响所有服务器。
解决方案:
IT 人员可以在阈值和可用性配置文件中设置策略选项,进程内存利用率阈值大于 90%,轮询计数设置为 3。这可以与服务器重启自动化相关联。
使用此设置,如果存在阈值违规,即使在三个轮询后仍存在违规,将执行重新启动服务器的自动化。
提示:
在监控 100 台服务器时,您可以选择 $LOCALHOST 作为目标主机。这将确保在任何违反阈值的服务器中执行自动化。这仅适用于服务器监视器(基于代理)。
添加自动化
支持的版本:Windows 18.4.0 及更高版本 | 适用于 Linux 的 16.6.0 及更高版本
- 登录到 Site24x7 并转到管理> IT 自动化模板(+)。您还可以通过 服务器> IT 自动化模板 (+)进行导航。
- 选择自动化类型为Server Reboot。
- 提供显示名称以进行识别。
- 选择主机以执行服务器重新启动自动化。
例如:在上述情况下,选择 $LOCALHOST 以在发生阈值违规的任何服务器中执行服务器重新启动。这仅适用于服务器监视器(基于代理)。 - 输入超时时间(以秒为单位),表示代理必须等待执行完成的最长时间。发布那个,会有一个超时错误。如果设置为是,这将在电子邮件通知中捕获。
默认情况下,超时设置为 15 秒。您可以在1-90 秒之间定义超时 。
- 您可以选择将自动化结果的电子邮件发送到通知配置文件中配置的用户组。默认情况下,它设置为No。此电子邮件将包含参数,包括自动化名称、自动化类型、事件原因、目标主机等。
如果您在一个数据收集中执行了多个自动化,则会发送一封合并的电子邮件。
- 保存更改。
添加自动化后,计划这些自动化一个接一个地执行。
在通知配置文件中配置以下设置:
- 执行与监视器关联的 IT 自动化后通知停机/故障的状态:设置为“是”时,如果您的监视器即使在执行指定操作后仍面临中断,您将立即收到有关停机/故障的状态的告警。
- 抑制依赖监视器的 IT 自动化:当依赖资源的状态为关闭时,不执行 IT 自动化。
测试自动化
添加自动化后,转到IT 自动化摘要页面(服务器 > IT 自动化模板)并使用该 图标进行测试运行。了解更多。
测试运行将应用于所有选择自动重启执行的主机。一个例外是选择 $LOCALHOST 作为唯一的主机。
单击IT 自动化日志以查看按日期执行的自动化列表。
地图自动化
要执行自动化,请将其映射到所需的事件。这可以通过两种方式完成:
相关文章
- 开始使用 Site24x7 IT 自动化
- 支持的其他自动化工具:服务器脚本| windows服务 | 服务器命令 | 线程转储/堆转储 | 调用 URL/REST API | 标记为维护 | Hyper-V | IIS
- IT 自动化日志
- 服务器监控架构
- 添加服务器: Windows | Linux
- 支持 Microsoft 应用程序
- 配置文件