Hadoop监控| Hadoop性能监控：Site24x7

Hadoop是一个基于Java的开源编程框架，允许您存储和处理极大的数据集。使用Site24x7插件并不断收集Hadoop统计信息，事件和指标。确定最近和长期的绩效趋势，并在问题出现时迅速解决。

本文档详细介绍了如何配置Hadoop插件和监控指标，以深入了解Hadoop服务器的性能，可用性和使用情况统计信息。

Hadoop性能监控指标：

通过跟踪关键指标，轻松排查Hadoop环境，包括：

总负载

“total_load”为我们提供了Hadoop设置中所有数据节点的文件访问量度。

已用空间

“used_space”为我们提供了已消耗的空间总量，并且无法在Hadoop配置的系统中进一步使用。

可用空间

“free_space”为我们提供了尚未消耗的空间总量，可在Hadoop配置系统中进一步使用。

缺少块

度量标准“missing_blocks”给出了Hadoop设置中缺少的内存块数。

损坏的块

“corrupt_blocks”给出了Hadoop设置中损坏的内存块的数量。

配置容量

度量标准“configured_capacity”列出了为Hadoop设置中的名称节点配置的总空间量。

剩余百分比

度量标准“percent_remaining”为我们提供了在Hadoop设置名称节点中剩余可用空间的百分比。

总块数

“total_blocks”列出了在Hadoop设置名称节点中创建的内存块数。

总文件数

度量标准“total_files”列出了Hadoop设置名称节点中的文件总数。

线程数

“number_of_threads”列出了当前在Hadoop设置名称节点中运行的线程数。

整体空间

“total_space”给出了Hadoop设置数据节点中可用总空间的度量。

剩余的空间

“remaining_space”给出了Hadoop设置数据节点中可用的未使用空间总量的度量。

DFS使用了空间

度量标准“dfs_used_space”用于衡量由于数据节点而导致的Hadoop设置中的总使用空间。

非DFS使用空间

由于数据节点以外的原因，“non_dfs_used_space”给出了Hadoop设置中总使用空间的度量。

活动节点

“activenodes”并获取当前活动使用的Hadoop设置中的节点数。

总/分配的MB

使用指标“totalMB”，“allocatedMB”并获取Hadoop设置中的总内存量以及是否已将其分配用于其他目的的统计信息。

可用/保留MB

使用指标“availableMB”，“reservedMB”并获取Hadoop设置中可供使用的内存总量，或保留用于其他目的。

总/分配的虚拟核心

使用度量标准“totalMB”，“allocatedvirtualcores”并获取虚拟核心总数以及是否已为Hadoop配置系统中的作业分配它们的统计信息。

可用/预留的虚拟核心

使用指标“availablevirtualcores”，“reservedMB”并获取可供使用的虚拟核心总数，或者在Hadoop配置的系统中保留用于其他目的。

提交/完成/失败的申请

使用指标“appssubmitted”，“appscompleted”，“appsfailed”并计算已在Hadoop系统中提交，已完成运行或失败的应用程序总数。

应用程序已终止/正在/正在运

使用指标“appskilled”，“appspending”，“appsrunning”并计算已杀死，待处理或仍在Hadoop系统中运行的应用程序总数。

分配/待处理的容器

在Hadoop中，容器是一个工作单元发生的地方。使用度量“containersAllocated”，“containersPending”并获取已在Hadoop设置中分配或仍在等待分配的所有容器的总数。

容器保留/运行

在Hadoop中，容器是一个工作单元发生的地方。使用度量“containersReserved”，“runningContainers”并获取保留或仍在Hadoop设置中运行的所有容器的总数。

总/退役节点

使用指标“totalNodes”，“decommissionedNodes”获取所有节点的总数以及系统中已停用的数量。

丢失/重启/不健康的节点

使用指标“lostNodes”，“rebootedNodes”，“unhealthyNodes”，获取系统中丢失，重新启动或运行状况不佳的所有节点的总数。

经过的时间

度量标准“elapsedTime”将获得群集执行所花费的总时间。

记忆秒数

度量标准“memoryseconds”将获得应用程序分配的累计内存量（以兆字节为单位）乘以应用程序运行的秒数。

进展

“progress”将记录当前工作状态的完成百分比。

上次健康更新

“lastHealthUpdate”将记录自Hadoop配置系统中发生运行状况更新以来的时间。

这个怎么运作？

登录您的Site24x7帐户。如果您没有，请在此处注册
下载并安装最新版本的Site24x7 Linux代理程序
安装Hadoop插件
代理将执行Hadoop插件并将数据推送到Site24x7服务器

先决条件：

确保Hadoop已安装在服务器中并且已启动并正在运行。

Hadoop插件安装：

为Site24x7 Linux Agent的插件目录下的名称为“hadoop”，“hadoop_namenode”，“hadoop_datanode”，“hadoop_resourcemanager_metrics”，“hadoop_resourcemanager_appmetrics”，“hadoop_resourcemanager_nodemetrics”的所有插件创建单独的目录 - / opt / site24x7 / monagent / plugins /

cd / opt / site24x7 / monagent / plugins /

sudo mkdir hadoop

sudo mkdir hadoop_namenode

sudo mkdir hadoop_datanode

sudo mkdir hadoop_resourcemanager_metrics

sudo mkdir hadoop_resourcemanager_appmetrics

sudo mkdir hadoop_resourcemanager_nodemetrics

从我们的GitHub存储库下载文件“ ”hadoop.py“并将其放在”hadoop“目录下

cd hadoop

sudo wget https://raw.githubusercontent.com/site24x7/plugins/master/hadoop/hadoop.py

从我们的GitHub存储库下载文件“hadoop_namenode.py”并将其放在“hadoop_namenode”目录下

cd hadoop_namenode

sudo wget https://raw.githubusercontent.com/site24x7/plugins/master/hadoop_namenode/hadoop_namenode.py

从我们的GitHub存储库下载文件“hadoop_datanode.py”并将其放在“hadoop_datanode”目录下

cd hadoop_datanode

sudo wget https://raw.githubusercontent.com/site24x7/plugins/master/hadoop_datanode/hadoop_datanode.py

从我们的GitHub存储库下载文件“hadoop_resourcemanager_metrics.py”并将其放在“hadoop_resourcemanager_metrics”目录下

cd hadoop_resourcemanager_metrics

sudo wget https://raw.githubusercontent.com/site24x7/plugins/master/hadoop_resourcemanager_metrics/hadoop_resourcemanager_metrics.py

从我们的GitHub存储库下载文件“hadoop_resourcemanager_appmetrics.py”并将其放在“hadoop_resourcemanager_appmetrics”目录下

cd hadoop_resourcemanager_appmetrics

sudo wget https://raw.githubusercontent.com/site24x7/plugins/master/hadoop_resourcemanager_appmetrics/hadoop_resourcemanager_appmetrics.py

从我们的GitHub存储库下载文件“hadoop_resourcemanager_nodemetrics.py”并将其放在“hadoop_resourcemanager_nodemetrics”目录下

cd hadoop_resourcemanager_nodemetrics

sudo wget https://raw.githubusercontent.com/site24x7/plugins/master/hadoop_resourcemanager_nodemetrics/hadoop_resourcemanager_nodemetrics.py

Hadoop插件配置：

插件脚本中给出的默认python路径是＃！/ usr / bin / python。如果您希望提供备用python路径，请替换前面带有shebang字符“＃！”的现有路径。
配置Hadoop插件的主机和端口值

例如：

HOST =“localhost”

ADMINPORT =“4848”

所有其他插件也可以进行相同的编辑。
保存更改并重新启动代理。

/etc/init.d/site24x7monagent restart

监控其他指标：

要监控其他指标，请编辑任何一个插件文件并添加需要监控的新指标
增加插件文件中的插件版本值以查看新添加的度量标准（例如，将默认插件版本从PLUGIN_VERSION =“1”更改为“PLUGIN_VERSION =”2“）

Hadoop监控插件