Amazon EC2 监控集成
Amazon EC2 提供可调整大小的计算容量,帮助您在云中运行和扩展业务应用程序。借助 Site24x7 的监控功能,您可以在管理程序级别 (CloudWatch) 和系统级别 (Agent)监控您的 EC2 实例。
概述
Site24x7 支持以下对 Elastic Compute Cloud (EC2) 实例的监控模式:
- CloudWatch EC2 集成:监控基本基础设施指标,例如 CPU 使用率、实例存储量的磁盘 I/O 统计数据、网络流量指标和 CPU 点数使用率。
- 增强的 EC2 监控(CloudWatch 集成 + 基于代理的方法):通过在您的 EC2 实例上部署我们的轻量级代理来监控深层系统级指标,例如内存利用率、EBS 磁盘使用率、CPU 窃取、进程级信息和应用程序指标。
- 监控容量预留:监控 EC2 实例的按需容量预留。
设置和配置
- 如果您尚未这样做,请通过将 Site24x7 创建为 IAM 用户或通过在您的账户和 Site24x7 的 AWS 账户之间创建跨账户 IAM 角色来启用对 AWS 资源的访问。了解更多。
- 接下来,在集成AWS 账户页面中,请确保在Services to be found字段中选中 EC2 Instance 复选框。了解更多。
策略和权限
请确保分配给 Site24x7 IAM 实体的策略文档中存在以下读取级别操作。了解更多。
- "ec2:DescribeAddresses",
- "ec2:DescribeInstances",
- "ec2:DescribeSnapshotAttribute",
- "ec2:DescribeInstanceAttribute",
- "ec2:DescribeSnapshots",
- "ec2:DescribeInstanceCreditSpecifications",
- "ec2:GetConsoleOutput",
- "ec2:DescribeImages",
- "ec2:DescribeVolumeStatus",
- "ec2:DescribeAvailabilityZones",
- "ec2:DescribeVolumes",
- "ec2:DescribeAccountAttributes",
- "ec2:DescribeElasticGpus",
- "ec2:DescribeInstanceStatus",
- "ec2:DescribeVpcs",
- "ec2:DescribeFlowLogs",
- "ec2:DescribeNatGateways",
- "ec2:DescribeSubnets",
- "ec2:DescribeVpcEndpoints",
- "ec2:DescribeVpnConnections",
- "ec2:DescribeVpcPeeringConnections",
- "ec2:DescribeRouteTables",
- "ec2:DescribeNetworkAcls",
- "autoscaling:DescribeAutoScalingInstances",
- "autoscaling:DescribeAutoScalingGroups"
对于容量预留,
- "ec2:DescribeAddresses",
- "ec2:DescribeCapacityReservations",
- "ec2:DescribeInstances",
- "ec2:GetCapacityReservationUsage"
轮询频率
通过查询 CloudWatch API,根据轮询频率集(1 分钟到 1 天)收集基本基础设施指标。了解更多。
IT 自动化
您可以为 Site24x7 支持的 AWS 服务添加自动化。登录到 Site24x7 并转到管理 > IT 自动化模板 (+) > 添加自动化模板。添加自动化后,您可以计划它们一个接一个地执行。
您现在可以使用Amazon EC2 自动化来启动、停止、停止休眠和重启 EC2 实例。
安全发现
通过集成Amazon Inspector和 EC2来强化您的 Amazon EC2 实例以抵御网络攻击;和Amazon GuardDuty和 EC2 在一个控制台中。Amazon EC2 的 Inspector 和 GuardDuty 调查结果可以根据其严重性级别进行分组。分组依据功能允许您对严重性类别进行排序,并列出相应的规则包名称和注释(如果有)。
除了为监控的 EC2 实例添加这些阈值配置外,您还可以选择设置阈值并获得以下通知:
- 根据 Inspector/GuardDuty 阈值配置下的严重性级别(如高、低、中、信息或总数)的安全发现。
- Accelerator配置,例如 GPU 内存利用率、Accelerator内存使用率和Accelerator利用率。
CloudWatch EC2 集成
支持的性能指标
CPU 信用指标
属性 | 描述 | 统计数据 | 数据类型 |
---|---|---|---|
CPU 点数使用率 | 衡量实例消耗的 CPU 点计数 | 平均的 | 计数 |
CPU 点数余额 | 衡量实例累积获得的 CPU 点计数 | 平均的 | 计数 |
CPU 剩余配额 | 监测 T2 无限实例已消耗的剩余点计数。 | 平均的 | 计数 |
收取的 CPU 剩余点数 | 衡量未由获得的 CPU 点数支付的已消耗剩余点数的数量 | 平均的 | 计数 |
资源使用指标
属性 | 描述 | 统计数据 | 数据类型 |
---|---|---|---|
CPU 利用率 | 监测实例当前正在使用的已分配 CPU 单元的百分比。 | 平均的 | 百分 |
磁盘读取操作 | 监测所有实例卷上已完成的读取操作的数量。 | 平均的 | 计数 |
磁盘写入操作 | 监测所有实例卷上已完成的写入操作数。 | 平均的 | 计数 |
磁盘读取字节 | 监测从所有实例存储卷读取的字节数。 | 平均的 | 字节 |
磁盘写入字节 | 写入所有实例存储卷的字节数。 | 平均的 | 字节 |
网络 | 监测在所有网络接口上接收的字节数。 | 平均的 | 计数 |
网络输出 | 监测从所有网络接口发出的字节数。 | 平均的 | 计数 |
网络数据包 | 监测在所有网络接口上接收的数据包数量。 | 平均的 | 计数 |
网络数据包输出 | 监测从所有网络接口发出的数据包数量。 | 平均的 | 计数 |
元数据无令牌 | 使用不使用令牌的方法成功访问实例元数据服务的次数。 | 和 | 计数 |
基于 Nitro 的实例的 EBS 指标
属性 | 描述 | 统计数据 | 数据类型 |
---|---|---|---|
EBS 读取操作 | 在指定时间段内完成从附加到实例的所有 Amazon EBS 卷的读取操作。 | 平均的 | 计数 |
EBS 写入操作 | 在指定时间段内完成对附加到实例的所有 EBS 卷的写入操作。 | 平均的 | 计数 |
EBS 读取字节 | 在指定时间段内从附加到实例的所有 EBS 卷中读取的字节数。 | 平均的 | MB |
EBS 写入字节 | 在指定时间段内写入附加到实例的所有 EBS 卷的字节数。 | 平均的 | MB |
EBS IO 配额百分比 | 提供有关突发存储桶中剩余 I/O 点数百分比的信息。 | 平均的 | 百分比 |
EBS 字节配额百分比 | 提供有关突发存储桶中剩余吞吐量点数百分比的信息。 | 平均的 | 百分比 |
Accelerator指标
弹性推论指标
Amazon Elastic Inference (EI) 是一种资源,您可以将其附加到 Amazon EC2 实例以加速您的深度学习 (DL) 推论工作负载。监控连接到 EC2 实例的 Elastic Inference 的连接性和性能。
属性 | 描述 | 统计数据 | 数据类型 |
---|---|---|---|
Accelerator健康检查 | 报告 Elastic Inference Accelerator是否在最后一分钟通过了状态健康状况检查。值为零 (0) 表示状态检查失败。值一 (1) 表示状态检查已通过。 | 最低限度 | 计数 |
Accelerator连接检查 | 报告与 Elastic Inference Accelerator的连接是处于活动状态还是已失败。零 (0) 值表示连接失败。值一 (1) 表示连接成功。 | 最低限度 | 计数 |
Accelerator内存使用 | 监测 Amazon Elastic Inference Accelerator的内存。 | 和 | 字节 |
Elastic 图形指标
Amazon Elastic Graphics 为您的 Windows 实例提供灵活、低成本和高性能的图形加速。监控连接到 EC2 实例的 Elastic Graphics Accelerator的连接性和性能。
属性 | 描述 | 统计数据 | 数据类型 |
---|---|---|---|
GPU 连接检查 | 报告与 Elastic Graphics Accelerator的连接是处于活动状态还是已失败。零 (0) 值表示连接失败。值一 (1) 表示连接成功。 | 最低限度 | 计数 |
GPU 健康检查 | 报告 Elastic Graphics Accelerator是否在最后一分钟通过了状态健康状况检查。值为零 (0) 表示状态检查失败。值一 (1) 表示状态检查已通过。 | 最低限度 | 计数 |
GPU 内存利用率 | 监测使用的 GPU 内存。 | 和 | MiB |
实例状态检查
属性 | 描述 |
---|---|
状态检查失败 | 报告实例在过去 1 分钟内是否通过了实例可达性和系统可达性检查。 |
状态检查失败_instance | 报告实例是否在过去 1 分钟内通过了实例可达性检查。 |
状态检查失败_系统 | 报告实例是否在最近 1 分钟内通过了系统可达性检查。 |
配置详情:
参数 | 描述 |
---|---|
公共主机名 | 显示实例的主机名 |
公共 IP 地址 | 显示实例的 IP 地址 |
实例类型 | 指示 EC2 实例的类型 |
实例启动时间 | 显示此 EC2 实例的启动时间 |
地区 | 实例运行的地域名称 |
实例状态 | 表示实例的功能状态 |
镜像 ID | 列出用于启动实例的 AMI 的映像 ID |
AMI 启动指数 | 可用于在启动组中查找实例 |
私有 DNS 名称 | 分配给实例的私有 DNS 名称 |
私有 IP 地址 | 实例的私有 IP 地址 |
可用区 | 实例的可用区 |
架构 | 镜像的架构 |
RAM 磁盘 ID | 与实例关联的 RAM 盘 |
内核标识符 | 与实例关联的内核 |
根设备类型 | AMI 使用的根设备类型 |
根设备名称 | AMI 使用的根设备的名称 |
增强的 EC2 监控(EC2 CloudWatch 和代理集成)
您还可以在您的 EC2 实例上部署代理,以更详细地了解其性能。部署后,您可以与基本实例级别并排查看系统属性(内存/交换使用情况)、进程属性(线程/句柄计数)、磁盘属性(空闲/已用磁盘空间)和网络属性(错误/丢弃的数据包)从 cloudWatch 获得的 EC2 属性(如上所述)。
如果您想详细了解如何为您的 EC2 实例启用此 EC2 CloudWatch 和代理集成,请参阅我们的产品文档。该文档还将详细介绍先决条件、附加优势、UI 功能和代理部署步骤。
下面列出了您将通过集成获得的其他属性。
轮询频率
系统级指标每分钟或每 5 分钟收集一次。
系统级属性
参数 | 描述 |
---|---|
物理 CPU 使用率 | 以百分比表示的总体 CPU 利用率。 |
内存利用率 | 以百分比表示的总体内存利用率。 |
平均负载 1 分钟 | 过去一分钟内等待 CPU 时间的任务或进程的平均数。 |
平均加载 5 分钟 | 五分钟内等待 CPU 时间的任务或进程的平均数。 |
平均负载 15 分钟 | 十五分钟内等待 CPU 时间的任务或进程的平均数。 |
内存总量 | 可用的总内存(以字节为单位) |
释放内存 | 现在空闲的总内存部分。 |
使用的内存 | 正在使用的总内存的部分 |
可用总额 | 可用的总交换空间 |
可用交换 | 当前空闲的交换空间部分 |
交换使用 | 当前使用的交换空间部分。 |
使用的磁盘 | 正在使用的磁盘空间,百分比 |
无磁盘 | 可用磁盘空间,以百分比表示。 |
系统繁忙 | CPU 在用户或内核空间中花费的时间。 |
系统空闲时间 | CPU 处于空闲状态的时间量。 |
进程级属性
参数 | 描述 |
---|---|
进程 ID | 进程的唯一进程标识号。 |
CPU 利用率 | 进程使用的 CPU 使用量。 |
内存利用率 | 进程消耗的物理内存量。 |
线程数 | 进程的活动线程数。 |
处理计数 | 对象句柄的数量。 |
网络属性
参数 | 描述 |
---|---|
网卡名称 | 弹性网络接口卡的接口名称。 |
错误包 | 丢弃的网络数据包数。 |
传输字节 | 弹性网络接口上每秒传输的字节数。 |
接收字节 | 弹性网络接口上每秒接收的字节数。 |
传输的数据包 | 弹性网络接口上每秒传输的数据包数。 |
收到的数据包 | 弹性网络接口上每秒接收的打包程序数。 |
其他配置细节
参数 | 描述 |
---|---|
主机名/IP | EC2 主机的主机名/IP。 |
IP地址 | EC2 主机的 IP 地址。 |
操作系统 | 当前在 EC2 主机上运行的操作系统类型。 |
操作系统架构 | 处理器架构 – 32 位或 64 位。 |
安装内存 (MB) | EC2 主机上安装的内存。 |
CPU 核心数 | EC2 主机上的逻辑 CPU 核心数。 |
处理器 | 正在使用的处理器的规格。 |
监控容量预留
您现在可以监控特定可用区域中 AWS EC2 实例的预留容量的使用情况,并在超出阈值时识别已使用/未使用的容量。在监控的资源选项卡下查看关联的 EC2 实例及其状态,并设置阈值以在任何这些实例失败时得到通知。
容量预留的性能指标
属性 | 描述 | 统计数据 | 数据类型 |
---|---|---|---|
已用实例数 | 当前正在使用的实例数。 注意:如果资源是共享的,则此指标在帐户级别也可用。 |
最大 | 计数 |
可用实例数 | 可用的实例数。 | 最低限度 | 计数 |
总实例数 | 您预留的实例总数。 | 最大 | 计数 |
实例利用率 | 当前正在使用的预留容量实例的百分比。 | 平均的 | 计数 |
用例
- 在特定时间运行批处理工作负载时,监控未使用的容量有助于避免产生额外费用。
- 在账户级别监控并设置已使用实例计数的阈值,以识别已使用的容量。