AWS Database Migration Service 监控集成

AWS Database Migration Service (DMS) 是一项旨在将数据从一个数据库迁移到另一个数据库的服务。它支持同构迁移,例如 Oracle 到 Oracle,以及不同数据库平台之间的异构迁移,例如 Oracle 或 Microsoft SQL Server 到 Amazon Aurora。

通过 Site24x7 与 AWS DMS 的集成,您可以监控源和目标的数据库终端节点,并确保无缝数据迁移。我们通过密切关注您的 AWS DMS 复制任务和复制实例来帮助您解决迁移期间的数据库工作负载挑战。

设置和配置

1. 如果您还没有,请通过以下任一方式启用对 AWS 账户和 Site24x7 的 AWS 账户中的 AWS 资源的访问:

  • 以 IAM 用户身份创建 Site24x7。
  • 创建跨账户 IAM 角色。了解更多

2. 在集成 AWS 账户页面上,选中DMS 复制任务DMS 复制实例的相应了解更多

策略和权限

Site24x7 使用各种 AWS DMS API 来收集有关您的迁移服务的信息。将 AWS 托管策略ReadOnlyAccess分配给 Site24x7 实体(IAM 用户或 IAM 角色)以帮助 Site24x7 收集指标和元数据。如果要分配自定义策略,请确保策略 JSON 中存在以下读取级别操作。了解更多

  • "dms:DescribeAccountAttributes",
  • "dms:DescribeReplicationInstances",
  • "dms:DescribeReplicationTasks",
  • "dms:DescribeTableStatistics",
  • "dms:DescribeCertificates",
  • "dms:DescribeConnections",
  • "dms:DescribeEndpoints",
  • "dms:ListTagsForResource",
  • "dms:DescribeEvents",
  • "logs:DescribeLogStreams",
  • "logs:GetLogEvents"

 

轮询频率

Site24x7 根据配置的轮询频率查询 AWS 以收集 AWS DMS 性能指标。轮询间隔默认为一小时。了解更多

IT 自动化

您可以为 Site24x7 支持的 AWS 服务添加自动化。登录到 Site24x7 并转到管理 > IT 自动化模板 (+) > 添加自动化模板。添加自动化后,您可以计划它们一个接一个地执行。

您现在可以使用AWS Data Migration Service 自动化自动启动、停止、恢复和重新加载 AWS DMS 复制任务

AWS DMS 复制任务的性能指标

属性 描述 统计 数据类型
满载吞吐量带宽源 从源的满负载接收的传入数据,以千字节每秒为单位。 平均的 KB/秒
满载吞吐量带宽目标 从目标的满负载传输的传出数据,以千字节每秒为单位。 平均的 KB/秒
满载吞吐量行源 来自源的满负载的传入更改,以每秒行数为单位。 平均的 计数/秒
满载吞吐量行目标 目标完全加载后的传出更改,以每秒行数为单位。 平均的 计数/秒
CDC 即将发生的变化 在某个时间点等待应用到目标的更改事件总数。请注意,这与监测源端点的事务更改率不同。此指标的大量数字通常表明 AWS DMS 无法及时应用捕获的更改,从而导致高目标延迟。 计数
CDC 更改内存源 在内存中累积并等待从源提交的行数。您可以与 CDCChangesDiskSource 一起查看此指标。 计数
CDC 更改内存目标 在内存中累积并等待提交到目标的行数。您可以与 CDCChangesDiskTarget 一起查看此指标。 计数
CDC 更改磁盘源 磁盘上累积并等待从源提交的行数。您可以与 CDCChangesMemorySource 一起查看此指标。 计数
CDC 更改磁盘目标 磁盘上累积并等待提交到目标的行数。您可以与 CDCChangesMemoryTarget 一起查看此指标。 计数
CDC 吞吐量带宽源 为源接收的传入数据,以每秒千字节为单位。CDCThroughputBandwidth 记录在采样点收到的传入数据。如果未找到任务网络流量,则该值为零。由于 CDC 不会发出长时间运行的事务,因此可能不会记录网络流量。 平均的 KB/秒
CDC 吞吐量带宽目标 为目标传输的传出数据,以每秒千字节为单位。CDCThroughputBandwidth 记录在采样点上传输的传出数据。如果未找到任务网络流量,则该值为零。由于 CDC 不会发出长时间运行的事务,因此可能不会记录网络流量。 平均的 KB/秒
CDC 吞吐量行源 来自源的传入任务更改,以每秒行数为单位。 平均的 计数/秒
CDC 吞吐量行目标 目标的传出任务更改,以每秒行数为单位。 平均的 计数/秒
CDC 延迟源 从源终端节点捕获的最后一个事件与 AWS DMS 实例的当前系统时间戳之间的间隔(以秒为单位)。CDCLatencySource 表示源和复制实例之间的延迟。高 CDCLatencySource 意味着从源捕获更改的过程被延迟。要识别正在进行的复制中的延迟,您可以将此指标与 CDCLatencyTarget 一起查看。如果 CDCLatencySource 和 CDCLatencyTarget 都很高,请先调查 CDCLatencySource。 平均的
CDC 延迟目标 CDC 延迟目标表示复制实例和目标之间的延迟。当 CDC Latency Target 较高时,表示将更改事件应用于目标的过程被延迟。 平均的
CPU 利用率 任务使用的 CPU 百分比。 平均的 百分
CPU 分配 为任务分配的最大 CPU 百分比(0 表示无限制)。 平均的 百分
分配的内存 任务的最大内存分配(0 表示无限制)。 平均的 MB
交换使用 任务使用的交换量。 平均的 字节
验证成功记录数 AWS DMS 每分钟验证的行数。 计数
验证尝试记录数 每分钟尝试验证的行数。 计数
验证失败总计数 验证失败的行数。 计数
验证暂停总计数 暂停验证的行数。 计数
验证待处理总计数 验证仍处于待处理状态的行数。 计数
验证批量查询源延迟 AWS DMS 可以批量进行数据验证,尤其是在满载或持续复制期间的某些场景中,当有很多更改时。该指标表示从源端点读取大量数据所需的延迟。 平均的 毫秒
验证批量查询目标延迟 AWS DMS 可以批量进行数据验证,尤其是在满载或持续复制期间的某些场景中,当有很多更改时。该指标表示在目标端点上读取大量数据所需的延迟。 平均的 毫秒
验证项查询源延迟 在持续复制期间,数据验证可以识别正在进行的更改并对其进行验证。该指标表示从源读取这些更改的延迟。如果验证期间出现错误,验证可以根据更改的数量运行比所需更多的查询。 平均的 毫秒
验证项查询目标延迟 在持续复制期间,数据验证可以识别正在进行的更改并逐行验证它们。该指标提供了从目标读取这些更改的延迟。如果验证期间出现错误,验证可能会根据更改的数量运行比要求更多的查询。 平均的 毫秒
满载吞吐量带宽总计 目标和源的总满载吞吐量带宽。 平均的 KB/秒
满载吞吐量行总数 Target 和 Source 处的总满载吞吐量行。 平均的 计数/秒
CDC 更改内存总数 目标和源内存中的 CDC 更改总数。 计数
CDC 更改磁盘总数 目标和源磁盘中的 CDC 更改总数。 计数
CDC 总吞吐量带宽 目标和源的总 CDC 吞吐量带宽。 平均的 计数/秒
CDC 吞吐量行总数 目标和源的总 CDC 吞吐量带宽。 平均的 计数/秒
CDC 延迟总计 目标和源的总 CDC 延迟。 平均的
验证批量查询总延迟 Target 和 Source 处验证批量查询的总延迟。 平均的 毫秒
验证项查询总延迟 Target 和 Source 处验证项查询的总延迟 平均的 毫秒

AWS DMS 复制实例的性能指标

属性 描述 统计 数据类型
CPU 利用率 使用的 CPU 量。 平均的 百分
可用存储空间 可用存储空间量。 平均的 字节
可释放内存 可用随机存取存储器的数量。 平均的 字节
写 IOPS 每秒平均磁盘写入 I/O 操作数。 平均的 计数/秒
读取 IOPS 每秒平均磁盘读取 I/O 操作数。 平均的 计数/秒
读取吞吐量 每秒从磁盘读取的平均字节数。 平均的 字节/秒
读取延迟 每个磁盘 I/O(输入)操作所花费的平均时间。 平均的 毫秒
交换使用 复制实例上使用的交换空间量。 平均的 字节
网络接收吞吐量 复制实例上的传入(接收)网络流量,包括用于监控和复制的客户数据库流量和 AWS DMS 流量。 平均的 字节/秒

Site24x7 的 AWS DMS 监控界面

概括

使用时序图了解每个复制任务或复制实例中发生的不同事件。本部分为您提供操作详细信息,例如 CPU 利用率、内存使用情况、满载带宽、满载吞吐量行、更改数据捕获 (CDC) 传入更改、磁盘和内存中的 CDC 更改、CDC 延迟以及更多指标。

复制实例有一个单独的任务摘要选项卡,其中显示任务详细信息和各个任务的实时统计信息。对于每个任务详细信息,您还可以选择批量编辑阈值配置文件。

监控的资源

此处提供了各种资源可用性状态,以及有关资源名称、类型、显示名称、状态和操作的信息。操作列允许您设置告警并在被监控资源标记为关闭、危急或故障时添加自动化。 

端点详细信息

DMS 复制任务部分为您提供每个任务的端点详细信息。本节包含有关连接、源端点和目标端点的各种详细信息。Connections部分允许您配置阈值、设置告警并在每个端点关闭时为其添加自动化。

中断

资源的各种状态(如停机、故障、严重或维护)的历史记录显示在“中断”选项卡中。本节提供了有关中断的开始时间和结束时间、持续时间和评论(如果有)的详细信息。您还可以编辑或删除评论。

日志报表

您可以在此处查看复制实例或复制任务的审核日志数据,以及有关时间戳、状态、CPU 利用率、可用存储和可用内存的详细信息。