Amazon Elastic Map Reduce (EMR) 监控
Amazon EMR 是一种 Web 服务,使用户能够运行大数据框架来处理大量数据。Site24x7 监控 EMR 以确保不间断的数据分析并通知用户相关 AWS 服务的状态变化,例如 EMR 集群中的 EC2 实例。
设置和配置
- 如果您尚未这样做,请通过将 Site24x7 创建为 IAM 用户或通过在您的账户和 Site24x7 的 AWS 账户之间创建跨账户 IAM 角色来启用对 AWS 资源的访问。 了解更多。
- 接下来,在 Integrate AWS Account 页面中,请确保在 Services to be found 字段中选中 EMR 复选框。 了解更多。
策略和权限
请确保分配给 Site24x7 实体的 IAM 策略中存在以下读取级别操作。 了解更多。
- "elasticmapreduce:ListSecurityConfigurations",
- "elasticmapreduce:DescribeCluster",
- "elasticmapreduce:ListClusters",
- "elasticmapreduce:ListBootstrapActions",
- "elasticmapreduce:ListSteps",
- "elasticmapreduce:ListInstanceFleets",
- "elasticmapreduce:ListInstanceGroups",
- "elasticmapreduce:ListInstances"
轮询频率
Site24x7 根据轮询频率集(1 分钟到一天)查询 AWS 服务级别 API 和 CloudWatch API,以收集性能指标。 了解更多。
支持的指标
属性 | 描述 | 数据类型 | 统计 |
待处理的核心节点 | 等待分配的核心节点数。仅当存在核心节点时才报告此指标。 | 计数 | 最大 |
运行的核心节点 | 工作的核心节点数。仅当存在核心节点时才报告此指标。 | 计数 | 最大 |
待处理的任务节点 | 等待分配的任务节点数。仅当存在任务节点时才报告此指标。 | 计数 | 最大 |
任务节点运行 | 工作的任务节点数。仅当存在任务节点时才报告此指标。 | 计数 | 最大 |
剩余容量 | 剩余 HDFS 磁盘容量。 | GB | 最低限度 |
Corrupt Blocks | HDFS 报告为损坏的块数。 | 计数 | 最大 |
DFS 挂起的复制块 | 块复制的状态:正在复制的块、复制请求的时间和不成功的复制请求。 | 计数 | 最大 |
HDFS 字节读取 | 从 HDFS 读取的字节数。 | MB | 和 |
写入的 HDFS 字节数 | 写入 HDFS 的字节数。 | MB | 和 |
HDFS 利用率 | 当前使用的 HDFS 存储的百分比。 | 百分比 | 平均的 |
集群空闲状态 | 当集群处于空闲状态时,表示值为 i,否则为 0。 | 计数 | 最大 |
实时数据节点 | 从 Hadoop 接收工作的数据节点的百分比。 | 百分比 | 平均的 |
缺少块 | HDFS 没有副本的块数。 | 计数 | 最大 |
待删除块 | 标记为删除的块数。 | 计数 | 最大 |
S3 字节读取 | 从 Amazon S3 读取的字节数。 | MB | 和 |
实时任务跟踪器 | 功能正常的任务跟踪器的百分比。 | 百分比 | 平均的 |
地图插槽打开 | Hadoop 版本 1 中未使用的地图任务容量。 | 计数 | 最大 |
列入黑名单的任务跟踪器 | 在 Hadoop 版本 1 中列入黑名单的任务跟踪器的数量。 | 计数 | 最大 |
列入灰名单的任务跟踪器 | Hadoop 版本 1 中灰色列出的任务跟踪器的数量。 | 计数 | 最大 |
Reduce Slots Open | Hadoop 版本 1 中未使用的减少任务容量。 | 计数 | 最大 |
Remaining Map Tasks | Hadoop 版本 1 中每个作业的剩余映射任务数。 | 计数 | 最大 |
Remaining Map Tasks per Slot | Hadoop 版本 1 中集群中剩余的总映射任务与总映射槽的比率。 | 计数 | 最大 |
剩余的减少任务 | Hadoop version1 中每个作业的剩余reduce 任务数。 | 计数 | 最大 |
Running Map Tasks | Hadoop 版本 1 中每个作业的正在运行的地图任务数。 | 计数 | 最大 |
运行减少任务 | Hadoop 版本 1 中每个作业的运行 reduce 任务数。 | 计数 | 最大 |
已完成的应用程序 | 在 Hadoop 版本 2 中已完成提交到 YARN 的应用程序的数量。 | 计数 | 最大 |
应用失败 | 提交给 YARN 但在 Hadoop 版本 2 中未能完成的应用程序数量。 | 计数 | 最大 |
应用被终止 | 在 Hadoop 版本 2 中已被终止的提交给 YARN 的应用程序的数量。 | 计数 | 最大 |
待处理的应用 | 提交给 YARN 且在 Hadoop 版本 2 中处于挂起状态的应用程序的数量。 | 计数 | 最大 |
正在运行的应用程序 | 在 Hadoop 版本 2 中运行的提交给 YARN 的应用程序的数量。 | 计数 | 最大 |
提交的应用 | 在 Hadoop 版本 2 中提交给 YARN 的应用程序数量。 | 计数 | 最大 |
分配的容器 | ResourceManager for Hadoop 版本 2 分配的资源容器的数量。 | 计数 | 最大 |
容器待处理 | 队列中尚未在 Hadoop 版本 2 中分配的容器数。 | 计数 | 最大 |
容器保留 | Hadoop 版本 2 中保留的容器数量。 | 计数 | 最大 |
内存保留 | Hadoop 版本 2 中保留的内存量。 | MB | 最大 |
分配的内存 | 在 Hadoop 版本 2 中分配给集群的内存量。 | MB | 最大 |
可用内存 | Hadoop 版本 2 中可分配的内存量。 | MB | 最低限度 |
内存总量 | Hadoop 版本 2 中集群中的内存总量。 | MB | 最大 |
MR 活动节点 | 当前在 Hadoop 版本 2 中运行 MapReduce 任务或作业的节点数。 | 计数 | 最低限度 |
MR 退役节点 | 在 Hadoop 版本 2 中分配给已标记为 DECOMMISSIONED 状态的 MapReduce 应用程序的节点数。 | 计数 | 最大 |
MR 丢失节点 | 在 Hadoop 版本 2 中已被标记为 LOST 状态的分配给 MapReduce 的节点数。 | 计数 | 最大 |
MR 重新启动的节点 | 在 Hadoop 版本 2 中已重新启动并标记为 REBOOTED 状态的 MapReduce 可用节点的数量。 | 计数 | 最大 |
MR 总节点 | Hadoop 版本 2 中当前可用于 MapReduce 作业的节点数。 | 计数 | 最大 |
MR 不健康节点 | 在 Hadoop 版本 2 中标记为不健康状态的 MapReduce 作业可用的节点数。 | 计数 | 最大 |
容器挂起比率 | 待处理容器与 Hadoop 版本 2 中分配的容器的比率。 | 计数 | 最大 |
YARN 内存可用 | Hadoop 版本 2 中 YARN 可用的剩余内存百分比。 | 百分比 | 平均的 |
HBase 备份失败 | 先前备份的状态。如果备份尝试失败,则设置为 1。仅当存在 HBase 时才会收集此指标。 | 计数 | 最大 |
最近的备份 | 上一次备份完成所花费的时间。仅当存在 HBase 时才会收集此指标。 | 分钟 | 平均的 |
自上次成功备份以来的时间 | 在您的集群上启动最后一次成功的 HBase 备份后经过的分钟数。仅当存在 HBase 时才会收集此指标。 | 分钟 | 平均的 |
正在运行的多主实例组节点 | 正在运行的主节点的数量。此指标仅在 Hadoop 版本 2 和 MultiMaster 存在的情况下收集。 | 计数 | 最大 |
多主实例组节点运行百分比 | 在请求的主节点实例计数上运行的主节点的百分比。该指标仅在 Hadoop 版本 2 和 MultiMaster 存在的情况下收集。 | 百分比 | 平均的 |
请求的多主实例组节点 | 请求的主节点数。该指标仅在 Hadoop 版本 2 和 MultiMaster 存在的情况下收集。 | 计数 | 最大 |
Site24x7 的 EMR 监控界面
概括
以时间序列图表的形式接收所有重要 EMR 指标的概览,包括 HDFS、YARN、节点和内存指标。
监控的资源
如果您使用 Site24x7 监控您的 EC2 实例或 S3 存储桶,这些服务的状态将列在监控的资源选项卡中。您可以单击任何服务以查看其详细指标。 您还可以通过单击“ 操作” 下 的铅笔图标来设置阈值并在这些服务中的任何一个失败时收到通知。
配置
此选项卡显示集群中每个实例组的其他配置分类。如果修改了实例组的配置,新的配置将反映在此处。
步骤
集群要执行的操作被列为步骤。
引导操作
引导操作可用于安装其他软件或自定义集群实例的配置。此选项卡下列出了自定义引导操作。
安全配置
安全配置涉及为 EMR 文件系统创建数据加密、Kerberos 身份验证和 Amazon S3 授权。为用户角色或帐户定义的此类权限以 JSON 格式显示,如下所示。
集群摘要
显示 EMR 集群的清单详细信息。在这里,您将看到集群状态、与之关联的应用程序、部署的 EC2 实例、子网 ID 和类似的详细信息。
主节点的附加安全组用户为主节点添加的额外安全组。
属性 | 描述 |
发布标签 | Amazon EMR 发布版本。 |
可用区 | 托管 EMR 的区域。 |
实例组类型 | EC2 实例关联的实例组。 |
自动终止 | 自动终止状态:真或假。 |
应用 | 创建集群时安装的开源应用程序 Amazon EMR。 |
主公共 DNS | 主节点的公共 DNS 名称。 |
集群状态 | 集群状态:活动或终止。 |
状态变化消息 | 状态更改后 EMR 集群的状态。 |
日志 URI | 存储在 Amazon S3 中的日志的路径。 |
创建时间 | 表示创建 EMR 服务的时间。 |
经过时间 | 集群的总运行时间。 |
集群就绪时间 | 表示集群创建的时间。 |
对所有用户可见 | 列出可以查看 EMR 的用户。 |
键名 | 用户提供的用于访问 EC2 实例的密钥。 |
子网 ID | 存在 NAT 网关的 VPC 中的子网 ID。 |
Master的安全组 | 创建集群时托管安全组的名称。 |
核心和任务的安全组 | 核心和任务的安全组的名称。 |
EC2 实例配置文件 | EC2 实例配置文件的名称。 |
EMR 角色 | 附加到 EMR 的 IAM 策略。 |
请求的子网 ID | 用户附加的额外子网。 |
自动缩放角色 | 与自动扩缩实例关联的 IAM 角色。 |
缩减行为 | 提到两种行为之一:在实例小时边界处终止或在任务完成时终止。 |
EBS 根卷大小 | 显示 EBS 的容量。 |
核心和任务的附加安全组 | 用户为核心节点和任务节点添加的额外安全组。 |
请求的可用区 | 用户添加的额外区域。 |
安全配置 | EMR 的用户角色或账户权限。 |
领域 | Kerberos 领域名称。 |
自定义 AMI ID | 显示用户创建的自定义 Amazon Linux AMI。 |
运行 AMI 版本 | AMI 版本的当前版本。 |