Amazon Elastic Map Reduce (EMR) 监控

Amazon EMR 是一种 Web 服务,使用户能够运行大数据框架来处理大量数据。Site24x7 监控 EMR 以确保不间断的数据分析并通知用户相关 AWS 服务的状态变化,例如 EMR 集群中的 EC2 实例。

设置和配置

  • 如果您尚未这样做,请通过将 Site24x7 创建为 IAM 用户或通过在您的账户和 Site24x7 的 AWS 账户之间创建跨账户 IAM 角色来启用对 AWS 资源的访问。 了解更多
  • 接下来,在 Integrate AWS Account 页面中,请确保在 Services to be found 字段中选中 EMR 复选框。  了解更多

策略和权限

请确保分配给 Site24x7 实体的 IAM 策略中存在以下读取级别操作。 了解更多

  • "elasticmapreduce:ListSecurityConfigurations",
  • "elasticmapreduce:DescribeCluster",
  • "elasticmapreduce:ListClusters",
  • "elasticmapreduce:ListBootstrapActions",
  • "elasticmapreduce:ListSteps",
  • "elasticmapreduce:ListInstanceFleets",
  • "elasticmapreduce:ListInstanceGroups",
  • "elasticmapreduce:ListInstances"

轮询频率

Site24x7 根据轮询频率集(1 分钟到一天)查询 AWS 服务级别 API 和 CloudWatch API,以收集性能指标。 了解更多

支持的指标 

属性 描述 数据类型 统计
待处理的核心节点 等待分配的核心节点数。仅当存在核心节点时才报告此指标。 计数 最大
运行的核心节点 工作的核心节点数。仅当存在核心节点时才报告此指标。 计数 最大
待处理的任务节点 等待分配的任务节点数。仅当存在任务节点时才报告此指标。 计数 最大
任务节点运行 工作的任务节点数。仅当存在任务节点时才报告此指标。 计数 最大
剩余容量 剩余 HDFS 磁盘容量。 GB 最低限度
Corrupt Blocks HDFS 报告为损坏的块数。 计数 最大
DFS 挂起的复制块 块复制的状态:正在复制的块、复制请求的时间和不成功的复制请求。 计数 最大
HDFS 字节读取 从 HDFS 读取的字节数。 MB
写入的 HDFS 字节数 写入 HDFS 的字节数。 MB
HDFS 利用率 当前使用的 HDFS 存储的百分比。 百分比 平均的
集群空闲状态 当集群处于空闲状态时,表示值为 i,否则为 0。 计数 最大
实时数据节点 从 Hadoop 接收工作的数据节点的百分比。 百分比 平均的
缺少块 HDFS 没有副本的块数。 计数 最大
待删除块 标记为删除的块数。 计数 最大
S3 字节读取 从 Amazon S3 读取的字节数。 MB
实时任务跟踪器 功能正常的任务跟踪器的百分比。 百分比 平均的
地图插槽打开 Hadoop 版本 1 中未使用的地图任务容量。 计数 最大
列入黑名单的任务跟踪器 在 Hadoop 版本 1 中列入黑名单的任务跟踪器的数量。 计数 最大
列入灰名单的任务跟踪器 Hadoop 版本 1 中灰色列出的任务跟踪器的数量。 计数 最大
Reduce Slots Open Hadoop 版本 1 中未使用的减少任务容量。 计数 最大
Remaining Map Tasks Hadoop 版本 1 中每个作业的剩余映射任务数。 计数 最大
Remaining Map Tasks per Slot Hadoop 版本 1 中集群中剩余的总映射任务与总映射槽的比率。 计数 最大
剩余的减少任务 Hadoop version1 中每个作业的剩余reduce 任务数。 计数 最大
Running Map Tasks Hadoop 版本 1 中每个作业的正在运行的地图任务数。 计数 最大
运行减少任务 Hadoop 版本 1 中每个作业的运行 reduce 任务数。 计数 最大
已完成的应用程序 在 Hadoop 版本 2 中已完成提交到 YARN 的应用程序的数量。 计数 最大
应用失败 提交给 YARN 但在 Hadoop 版本 2 中未能完成的应用程序数量。 计数 最大
应用被终止 在 Hadoop 版本 2 中已被终止的提交给 YARN 的应用程序的数量。 计数 最大
待处理的应用 提交给 YARN 且在 Hadoop 版本 2 中处于挂起状态的应用程序的数量。 计数 最大
正在运行的应用程序 在 Hadoop 版本 2 中运行的提交给 YARN 的应用程序的数量。 计数 最大
提交的应用 在 Hadoop 版本 2 中提交给 YARN 的应用程序数量。 计数 最大
分配的容器 ResourceManager for Hadoop 版本 2 分配的资源容器的数量。 计数 最大
容器待处理 队列中尚未在 Hadoop 版本 2 中分配的容器数。 计数 最大
容器保留 Hadoop 版本 2 中保留的容器数量。 计数 最大
内存保留 Hadoop 版本 2 中保留的内存量。 MB 最大
分配的内存 在 Hadoop 版本 2 中分配给集群的内存量。 MB 最大
可用内存 Hadoop 版本 2 中可分配的内存量。 MB 最低限度
内存总量 Hadoop 版本 2 中集群中的内存总量。 MB 最大
MR 活动节点 当前在 Hadoop 版本 2 中运行 MapReduce 任务或作业的节点数。 计数 最低限度
MR 退役节点 在 Hadoop 版本 2 中分配给已标记为 DECOMMISSIONED 状态的 MapReduce 应用程序的节点数。 计数 最大
MR 丢失节点 在 Hadoop 版本 2 中已被标记为 LOST 状态的分配给 MapReduce 的节点数。 计数 最大
MR 重新启动的节点 在 Hadoop 版本 2 中已重新启动并标记为 REBOOTED 状态的 MapReduce 可用节点的数量。 计数 最大
MR 总节点 Hadoop 版本 2 中当前可用于 MapReduce 作业的节点数。 计数 最大
MR 不健康节点 在 Hadoop 版本 2 中标记为不健康状态的 MapReduce 作业可用的节点数。 计数 最大
容器挂起比率 待处理容器与 Hadoop 版本 2 中分配的容器的比率。 计数 最大
YARN 内存可用 Hadoop 版本 2 中 YARN 可用的剩余内存百分比。 百分比 平均的
HBase 备份失败 先前备份的状态。如果备份尝试失败,则设置为 1。仅当存在 HBase 时才会收集此指标。 计数 最大
最近的备份 上一次备份完成所花费的时间。仅当存在 HBase 时才会收集此指标。 分钟 平均的
自上次成功备份以来的时间 在您的集群上启动最后一次成功的 HBase 备份后经过的分钟数。仅当存在 HBase 时才会收集此指标。 分钟 平均的
正在运行的多主实例组节点 正在运行的主节点的数量。此指标仅在 Hadoop 版本 2 和 MultiMaster 存在的情况下收集。 计数 最大
多主实例组节点运行百分比 在请求的主节点实例计数上运行的主节点的百分比。该指标仅在 Hadoop 版本 2 和 MultiMaster 存在的情况下收集。 百分比 平均的
请求的多主实例组节点 请求的主节点数。该指标仅在 Hadoop 版本 2 和 MultiMaster 存在的情况下收集。 计数 最大

Site24x7 的 EMR 监控界面

概括

以时间序列图表的形式接收所有重要 EMR 指标的概览,包括 HDFS、YARN、节点和内存指标。

监控的资源

如果您使用 Site24x7 监控您的 EC2 实例或 S3 存储桶,这些服务的状态将列在监控的资源选项卡中。您可以单击任何服务以查看其详细指标。 您还可以通过单击“ 操作” 下 的铅笔图标来设置阈值并在这些服务中的任何一个失败时收到通知

配置

此选项卡显示集群中每个实例组的其他配置分类。如果修改了实例组的配置,新的配置将反映在此处。

步骤

集群要执行的操作被列为步骤。

引导操作

引导操作可用于安装其他软件或自定义集群实例的配置。此选项卡下列出了自定义引导操作。

安全配置

安全配置涉及为 EMR 文件系统创建数据加密、Kerberos 身份验证和 Amazon S3 授权。为用户角色或帐户定义的此类权限以 JSON 格式显示,如下所示。

集群摘要

显示 EMR 集群的清单详细信息。在这里,您将看到集群状态、与之关联的应用程序、部署的 EC2 实例、子网 ID 和类似的详细信息。

主节点的附加安全组用户为主节点添加的额外安全组。

属性 描述
发布标签 Amazon EMR 发布版本。
可用区 托管 EMR 的区域。
实例组类型 EC2 实例关联的实例组。
自动终止 自动终止状态:真或假。
应用 创建集群时安装的开源应用程序 Amazon EMR。
主公共 DNS 主节点的公共 DNS 名称。
集群状态 集群状态:活动或终止。
状态变化消息 状态更改后 EMR 集群的状态。
日志 URI 存储在 Amazon S3 中的日志的路径。
创建时间 表示创建 EMR 服务的时间。
经过时间 集群的总运行时间。
集群就绪时间 表示集群创建的时间。
对所有用户可见 列出可以查看 EMR 的用户。
键名 用户提供的用于访问 EC2 实例的密钥。
子网 ID 存在 NAT 网关的 VPC 中的子网 ID。
Master的安全组 创建集群时托管安全组的名称。
核心和任务的安全组 核心和任务的安全组的名称。
EC2 实例配置文件 EC2 实例配置文件的名称。
EMR 角色 附加到 EMR 的 IAM 策略。
请求的子网 ID 用户附加的额外子网。
自动缩放角色 与自动扩缩实例关联的 IAM 角色。
缩减行为 提到两种行为之一:在实例小时边界处终止或在任务完成时终止。
EBS 根卷大小 显示 EBS 的容量。
核心和任务的附加安全组 用户为核心节点和任务节点添加的额外安全组。
请求的可用区 用户添加的额外区域。
安全配置 EMR 的用户角色或账户权限。
领域 Kerberos 领域名称。
自定义 AMI ID 显示用户创建的自定义 Amazon Linux AMI。
运行 AMI 版本 AMI 版本的当前版本。