Hadoop是一个基于Java的开源编程框架,允许您存储和处理极大的数据集。使用Site24x7插件并不断收集Hadoop统计信息,事件和指标。确定最近和长期的绩效趋势,并在问题出现时迅速解决。
本文档详细介绍了如何配置Hadoop插件和监控指标,以深入了解Hadoop服务器的性能,可用性和使用情况统计信息。
Hadoop性能监控指标:
通过跟踪关键指标,轻松排查Hadoop环境,包括:
总负载
“total_load”为我们提供了Hadoop设置中所有数据节点的文件访问量度。
已用空间
“used_space”为我们提供了已消耗的空间总量,并且无法在Hadoop配置的系统中进一步使用。
可用空间
“free_space”为我们提供了尚未消耗的空间总量,可在Hadoop配置系统中进一步使用。
缺少块
度量标准“missing_blocks”给出了Hadoop设置中缺少的内存块数。
损坏的块
“corrupt_blocks”给出了Hadoop设置中损坏的内存块的数量。
配置容量
度量标准“configured_capacity”列出了为Hadoop设置中的名称节点配置的总空间量。
剩余百分比
度量标准“percent_remaining”为我们提供了在Hadoop设置名称节点中剩余可用空间的百分比。
总块数
“total_blocks”列出了在Hadoop设置名称节点中创建的内存块数。
总文件数
度量标准“total_files”列出了Hadoop设置名称节点中的文件总数。
线程数
“number_of_threads”列出了当前在Hadoop设置名称节点中运行的线程数。
整体空间
“total_space”给出了Hadoop设置数据节点中可用总空间的度量。
剩余的空间
“remaining_space”给出了Hadoop设置数据节点中可用的未使用空间总量的度量。
DFS使用了空间
度量标准“dfs_used_space”用于衡量由于数据节点而导致的Hadoop设置中的总使用空间。
非DFS使用空间
由于数据节点以外的原因,“non_dfs_used_space”给出了Hadoop设置中总使用空间的度量。
活动节点
“activenodes”并获取当前活动使用的Hadoop设置中的节点数。
总/分配的MB
使用指标“totalMB”,“allocatedMB”并获取Hadoop设置中的总内存量以及是否已将其分配用于其他目的的统计信息。
可用/保留MB
使用指标“availableMB”,“reservedMB”并获取Hadoop设置中可供使用的内存总量,或保留用于其他目的。
总/分配的虚拟核心
使用度量标准“totalMB”,“allocatedvirtualcores”并获取虚拟核心总数以及是否已为Hadoop配置系统中的作业分配它们的统计信息。
可用/预留的虚拟核心
使用指标“availablevirtualcores”,“reservedMB”并获取可供使用的虚拟核心总数,或者在Hadoop配置的系统中保留用于其他目的。
提交/完成/失败的申请
使用指标“appssubmitted”,“appscompleted”,“appsfailed”并计算已在Hadoop系统中提交,已完成运行或失败的应用程序总数。
应用程序已终止/正在/正在运
使用指标“appskilled”,“appspending”,“appsrunning”并计算已杀死,待处理或仍在Hadoop系统中运行的应用程序总数。
分配/待处理的容器
在Hadoop中,容器是一个工作单元发生的地方。使用度量“containersAllocated”,“containersPending”并获取已在Hadoop设置中分配或仍在等待分配的所有容器的总数。
容器保留/运行
在Hadoop中,容器是一个工作单元发生的地方。使用度量“containersReserved”,“runningContainers”并获取保留或仍在Hadoop设置中运行的所有容器的总数。
总/退役节点
使用指标“totalNodes”,“decommissionedNodes”获取所有节点的总数以及系统中已停用的数量。
丢失/重启/不健康的节点
使用指标“lostNodes”,“rebootedNodes”,“unhealthyNodes”,获取系统中丢失,重新启动或运行状况不佳的所有节点的总数。
经过的时间
度量标准“elapsedTime”将获得群集执行所花费的总时间。
记忆秒数
度量标准“memoryseconds”将获得应用程序分配的累计内存量(以兆字节为单位)乘以应用程序运行的秒数。
进展
“progress”将记录当前工作状态的完成百分比。
上次健康更新
“lastHealthUpdate”将记录自Hadoop配置系统中发生运行状况更新以来的时间。
这个怎么运作?
- 登录您的Site24x7帐户。如果您没有,请在此处注册
- 下载并安装最新版本的Site24x7 Linux代理程序
- 安装Hadoop插件
- 代理将执行Hadoop插件并将数据推送到Site24x7服务器
先决条件:
- 确保Hadoop已安装在服务器中并且已启动并正在运行。
Hadoop插件安装:
- 为Site24x7 Linux Agent的插件目录下的名称为“hadoop”,“hadoop_namenode”,“hadoop_datanode”,“hadoop_resourcemanager_metrics”,“hadoop_resourcemanager_appmetrics”,“hadoop_resourcemanager_nodemetrics”的所有插件创建单独的目录 - / opt / site24x7 / monagent / plugins /
- 从我们的GitHub存储库下载文件“ ”hadoop.py“并将其放在”hadoop“目录下
- 从我们的GitHub存储库下载文件“hadoop_namenode.py”并将其放在“hadoop_namenode”目录下
- 从我们的GitHub存储库下载文件“hadoop_datanode.py”并将其放在“hadoop_datanode”目录下
- 从我们的GitHub存储库下载文件“hadoop_resourcemanager_metrics.py”并将其放在“hadoop_resourcemanager_metrics”目录下
- 从我们的GitHub存储库下载文件“hadoop_resourcemanager_appmetrics.py”并将其放在“hadoop_resourcemanager_appmetrics”目录下
- 从我们的GitHub存储库下载文件“hadoop_resourcemanager_nodemetrics.py”并将其放在“hadoop_resourcemanager_nodemetrics”目录下
Hadoop插件配置:
- 插件脚本中给出的默认python路径是#!/ usr / bin / python。如果您希望提供备用python路径,请替换前面带有shebang字符“#!”的现有路径。
- 配置Hadoop插件的主机和端口值
- 所有其他插件也可以进行相同的编辑。
- 保存更改并重新启动代理。
监控其他指标:
- 要监控其他指标,请编辑任何一个插件文件并添加需要监控的新指标
- 增加插件文件中的插件版本值以查看新添加的度量标准(例如,将默认插件版本从PLUGIN_VERSION =“1”更改为“PLUGIN_VERSION =”2“)