添加自动化监控:简化 Azure 故障排除


从传统的本地 IT 基础设施到公共云的过渡为 IT 决策者和系统管理员带来了巨大的缓解。由于许多组织使用 Microsoft Windows 作为首选操作系统,Microsoft Azure 由于熟悉的 GUI 和 Active Directory 同步而自动成为首选的公共云提供商。然而,随着关键业务资产继续迁移到公共云,有效的 Azure 资源监控对于确保数字弹性变得不可或缺。在本博客中,我们将探讨将自动化和监控结合到故障排除工具包中的令人信服的原因。

停电时有发生,但你准备好了吗?


在企业级组织领域,数以万计的虚拟机 (VM) 和许多其他云原生资源(例如 Azure 数据工厂)已成为常态,中断是一个不幸的现实。这些中断(由 Azure 官方状态页面正式报告)可能因多种原因而发生,从连接问题(如 2023 年 9 月 16 日所示)到硬件故障(如 2023 年 8 月 30 日报告的冷却故障)和服务中断(如2023年7月6日的日志数据访问问题)。

虽然并非所有中断都可以避免,但关键是最大限度地缩短平均修复时间并保持数字弹性,这是任何业务连续性计划中的两个关键因素。这正是强大的监控解决方案发挥作用的地方。警惕的监控系统(例如 Site24x7 的 Azure 监控)可以快速识别受影响的服务、查明根本原因并提供详细的见解。

自动化的好处


想象一下,您的企业依赖数百或数千个 Azure VM 来确保对产品和服务的不间断访问。在高需求期间,虚拟机 CPU 利用率可能会超过临界阈值,从而可能导致中断。

有时,自动修复比手动干预更有效。通过将 Azure IT 自动化无缝集成到您的监控设置中,Site24x7 可以自动响应关键 CPU 利用率(例如 90%)或 VM 中断。它可以代表您启动虚拟机重启等操作,从而无需全天候手动监控和干预。

如何设置自动化和监控?


将 Azure IT 自动化集成到现有的 Site24x7 Azure监控订阅中是本帮助文档中概述的简单过程。在这里,您将找到有关配置 IT 自动化的说明以及可用服务和补救措施的详尽列表。

通过利用自动化,您不仅可以简化 Azure 故障排除,还可以节省宝贵的时间和资源。这使您的 IT 团队能够专注于战略计划,而 Site24x7 则有效地管理其余部分。