Amazon EC2 监控集成

Amazon EC2 提供可调整大小的计算容量,帮助您在云中运行和扩展业务应用程序。借助 Site24x7 的监控功能,您可以在管理程序级别 (CloudWatch) 和系统级别 (Agent)监控您的 EC2 实例

概述

Site24x7 支持以下对 Elastic Compute Cloud (EC2) 实例的监控模式:

  • CloudWatch EC2 集成:监控基本基础设施指标,例如 CPU 使用率、实例存储量的磁盘 I/O 统计数据、网络流量指标和 CPU 点数使用率。
  • 增强的 EC2 监控(CloudWatch 集成 + 基于代理的方法):通过在您的 EC2 实例上部署我们的轻量级代理来监控深层系统级指标,例如内存利用率、EBS 磁盘使用率、CPU 窃取、进程级信息和应用程序指标。
  • 监控容量预留:监控 EC2 实例的按需容量预留。

设置和配置

  • 如果您尚未这样做,请通过将 Site24x7 创建为 IAM 用户或通过在您的账户和 Site24x7 的 AWS 账户之间创建跨账户 IAM 角色来启用对 AWS 资源的访问。了解更多
  • 接下来,在集成AWS 账户页面中,请确保在Services to be found字段中选中 EC2 Instance 复选框。了解更多

策略和权限

请确保分配给 Site24x7 IAM 实体的策略文档中存在以下读取级别操作。了解更多

  • "ec2:DescribeAddresses",
  • "ec2:DescribeInstances",
  • "ec2:DescribeSnapshotAttribute",
  • "ec2:DescribeInstanceAttribute",
  • "ec2:DescribeSnapshots",
  • "ec2:DescribeInstanceCreditSpecifications",
  • "ec2:GetConsoleOutput",
  • "ec2:DescribeImages",
  • "ec2:DescribeVolumeStatus",
  • "ec2:DescribeAvailabilityZones",
  • "ec2:DescribeVolumes",
  • "ec2:DescribeAccountAttributes",
  • "ec2:DescribeElasticGpus",
  • "ec2:DescribeInstanceStatus",
  • "ec2:DescribeVpcs",
  • "ec2:DescribeFlowLogs",
  • "ec2:DescribeNatGateways",
  • "ec2:DescribeSubnets",
  • "ec2:DescribeVpcEndpoints",
  • "ec2:DescribeVpnConnections",
  • "ec2:DescribeVpcPeeringConnections",
  • "ec2:DescribeRouteTables",
  • "ec2:DescribeNetworkAcls",
  • "autoscaling:DescribeAutoScalingInstances",
  • "autoscaling:DescribeAutoScalingGroups"

对于容量预留,

  • "ec2:DescribeAddresses",
  • "ec2:DescribeCapacityReservations",
  • "ec2:DescribeInstances",
  • "ec2:GetCapacityReservationUsage"

轮询频率

通过查询 CloudWatch API,根据轮询频率集(1 分钟到 1 天)收集基本基础设施指标。了解更多

IT 自动化

您可以为 Site24x7 支持的 AWS 服务添加自动化。登录到 Site24x7 并转到管理 > IT 自动化模板 (+) > 添加自动化模板。添加自动化后,您可以计划它们一个接一个地执行。

您现在可以使用Amazon EC2 自动化来启动、停止、停止休眠和重启 EC2 实例

安全发现

通过集成Amazon Inspector和 EC2来强化您的 Amazon EC2 实例以抵御网络攻击;和Amazon GuardDuty和 EC2 在一个控制台中。Amazon EC2 的 Inspector 和 GuardDuty 调查结果可以根据其严重性级别进行分组。分组依据功能允许您对严重性类别进行排序,并列出相应的规则包名称和注释(如果有)。

除了为监控的 EC2 实例添加这些阈值配置外,您还可以选择设置阈值并获得以下通知:

  • 根据 Inspector/GuardDuty 阈值配置下的严重性级别(如高、低、中、信息或总数)的安全发现。
  • Accelerator配置,例如 GPU 内存利用率、Accelerator内存使用率和Accelerator利用率。

 Inspector and GuardDuty findings for EC2

CloudWatch EC2 集成

支持的性能指标

CPU 信用指标

属性 描述 统计数据 数据类型
CPU 点数使用率 衡量实例消耗的 CPU 点计数 平均的 计数
CPU 点数余额 衡量实例累积获得的 CPU 点计数 平均的 计数
CPU 剩余配额 监测 T2 无限实例已消耗的剩余点计数。 平均的 计数
收取的 CPU 剩余点数 衡量未由获得的 CPU 点数支付的已消耗剩余点数的数量 平均的 计数

资源使用指标

属性 描述 统计数据 数据类型
CPU 利用率 监测实例当前正在使用的已分配 CPU 单元的百分比。 平均的 百分
磁盘读取操作 监测所有实例卷上已完成的读取操作的数量。 平均的 计数
磁盘写入操作 监测所有实例卷上已完成的写入操作数。 平均的 计数
磁盘读取字节 监测从所有实例存储卷读取的字节数。 平均的 字节
磁盘写入字节 写入所有实例存储卷的字节数。 平均的 字节 
网络 监测在所有网络接口上接收的字节数。 平均的 计数
网络输出 监测从所有网络接口发出的字节数。 平均的 计数
网络数据包 监测在所有网络接口上接收的数据包数量。 平均的 计数
网络数据包输出 监测从所有网络接口发出的数据包数量。 平均的 计数
元数据无令牌 使用不使用令牌的方法成功访问实例元数据服务的次数。 计数

基于 Nitro 的实例的 EBS 指标

属性 描述 统计数据 数据类型
EBS 读取操作 在指定时间段内完成从附加到实例的所有 Amazon EBS 卷的读取操作。 平均的 计数
EBS 写入操作 在指定时间段内完成对附加到实例的所有 EBS 卷的写入操作。 平均的 计数
EBS 读取字节 在指定时间段内从附加到实例的所有 EBS 卷中读取的字节数。 平均的 MB
EBS 写入字节 在指定时间段内写入附加到实例的所有 EBS 卷的字节数。 平均的 MB
EBS IO 配额百分比 提供有关突发存储桶中剩余 I/O 点数百分比的信息。 平均的 百分比
EBS 字节配额百分比 提供有关突发存储桶中剩余吞吐量点数百分比的信息。 平均的 百分比

Accelerator指标

弹性推论指标

Amazon Elastic Inference (EI) 是一种资源,您可以将其附加到 Amazon EC2 实例以加速您的深度学习 (DL) 推论工作负载。监控连接到 EC2 实例的 Elastic Inference 的连接性和性能。

属性 描述 统计数据 数据类型
Accelerator健康检查 报告 Elastic Inference Accelerator是否在最后一分钟通过了状态健康状况检查。值为零 (0) 表示状态检查失败。值一 (1) 表示状态检查已通过。 最低限度 计数
Accelerator连接检查 报告与 Elastic Inference Accelerator的连接是处于活动状态还是已失败。零 (0) 值表示连接失败。值一 (1) 表示连接成功。 最低限度 计数
Accelerator内存使用 监测 Amazon Elastic Inference Accelerator的内存。 字节

Elastic 图形指标

Amazon Elastic Graphics 为您的 Windows 实例提供灵活、低成本和高性能的图形加速。监控连接到 EC2 实例的 Elastic Graphics Accelerator的连接性和性能。

属性 描述 统计数据 数据类型
GPU 连接检查 报告与 Elastic Graphics Accelerator的连接是处于活动状态还是已失败。零 (0) 值表示连接失败。值一 (1) 表示连接成功。 最低限度 计数
GPU 健康检查 报告 Elastic Graphics Accelerator是否在最后一分钟通过了状态健康状况检查。值为零 (0) 表示状态检查失败。值一 (1) 表示状态检查已通过。 最低限度 计数
GPU 内存利用率 监测使用的 GPU 内存。 MiB

实例状态检查

属性 描述
状态检查失败 报告实例在过去 1 分钟内是否通过了实例可达性和系统可达性检查。
状态检查失败_instance 报告实例是否在过去 1 分钟内通过了实例可达性检查。
状态检查失败_系统 报告实例是否在最近 1 分钟内通过了系统可达性检查。

配置详情:

参数 描述
公共主机名 显示实例的主机名
公共 IP 地址 显示实例的 IP 地址
实例类型 指示 EC2 实例的类型
实例启动时间 显示此 EC2 实例的启动时间
地区 实例运行的地域名称
实例状态 表示实例的功能状态
镜像 ID 列出用于启动实例的 AMI 的映像 ID
AMI 启动指数 可用于在启动组中查找实例
私有 DNS 名称 分配给实例的私有 DNS 名称
私有 IP 地址 实例的私有 IP 地址
可用区 实例的可用区
架构 镜像的架构
RAM 磁盘 ID 与实例关联的 RAM 盘
内核标识符 与实例关联的内核
根设备类型 AMI 使用的根设备类型
根设备名称 AMI 使用的根设备的名称
为监控的 EC2 实例添加阈值配置文件。了解更多

增强的 EC2 监控(EC2 CloudWatch 和代理集成)

您还可以在您的 EC2 实例上部署代理,以更详细地了解其性能。部署后,您可以与基本实例级别并排查看系统属性(内存/交换使用情况)、进程属性(线程/句柄计数)、磁盘属性(空闲/已用磁盘空间)和网络属性(错误/丢弃的数据包)从 cloudWatch 获得的 EC2 属性(如上所述)。

如果您想详细了解如何为您的 EC2 实例启用此 EC2 CloudWatch 和代理集成,请参阅我们的产品文档。该文档还将详细介绍先决条件、附加优势、UI 功能和代理部署步骤。

下面列出了您将通过集成获得的其他属性。

轮询频率

系统级指标每分钟或每 5 分钟收集一次。

系统级属性

参数 描述
物理 CPU 使用率 以百分比表示的总体 CPU 利用率。
内存利用率 以百分比表示的总体内存利用率。
平均负载 1 分钟 过去一分钟内等待 CPU 时间的任务或进程的平均数。
平均加载 5 分钟 五分钟内等待 CPU 时间的任务或进程的平均数。
平均负载 15 分钟 十五分钟内等待 CPU 时间的任务或进程的平均数。
内存总量 可用的总内存(以字节为单位)
释放内存 现在空闲的总内存部分。
使用的内存 正在使用的总内存的部分
可用总额 可用的总交换空间
可用交换 当前空闲的交换空间部分
交换使用 当前使用的交换空间部分。
使用的磁盘 正在使用的磁盘空间,百分比
无磁盘 可用磁盘空间,以百分比表示。
系统繁忙 CPU 在用户或内核空间中花费的时间。
系统空闲时间 CPU 处于空闲状态的时间量。

进程级属性

参数 描述
进程 ID 进程的唯一进程标识号。
CPU 利用率 进程使用的 CPU 使用量。
内存利用率 进程消耗的物理内存量。
线程数 进程的活动线程数。
处理计数 对象句柄的数量。

网络属性

参数 描述
网卡名称 弹性网络接口卡的接口名称。
错误包 丢弃的网络数据包数。
传输字节 弹性网络接口上每秒传输的字节数。
接收字节 弹性网络接口上每秒接收的字节数。
传输的数据包 弹性网络接口上每秒传输的数据包数。
收到的数据包 弹性网络接口上每秒接收的打包程序数。

其他配置细节

参数 描述
主机名/IP EC2 主机的主机名/IP。
IP地址 EC2 主机的 IP 地址。
操作系统 当前在 EC2 主机上运行的操作系统类型。
操作系统架构 处理器架构 – 32 位或 64 位。
安装内存 (MB) EC2 主机上安装的内存。
CPU 核心数 EC2 主机上的逻辑 CPU 核心数。
处理器 正在使用的处理器的规格。
为您的集成 EC2 实例监视器添加阈值配置文件。了解更多

监控容量预留

您现在可以监控特定可用区域中 AWS EC2 实例的预留容量的使用情况,并在超出阈值时识别已使用/未使用的容量。在监控的资源选项卡下查看关联的 EC2 实例及其状态,并设置阈值以在任何这些实例失败时得到通知。

容量预留的性能指标

属性 描述 统计数据 数据类型
已用实例数 当前正在使用的实例数。
注意:如果资源是共享的,则此指标在帐户级别也可用。
最大 计数
可用实例数 可用的实例数。 最低限度 计数
总实例数 您预留的实例总数。 最大 计数
实例利用率 当前正在使用的预留容量实例的百分比。 平均的 计数

用例

  • 在特定时间运行批处理工作负载时,监控未使用的容量有助于避免产生额外费用。
  • 在账户级别监控并设置已使用实例计数的阈值,以识别已使用的容量。