Hadoop监控插件

使用Site24x7监控您的Hadoop设置,并深入了解关键性能指标。

Hadoop是一个基于Java的开源编程框架,允许您存储和处理极大的数据集。使用Site24x7插件并不断收集Hadoop统计信息,事件和指标。确定最近和长期的绩效趋势,并在问题出现时迅速解决。

本文档详细介绍了如何配置Hadoop插件和监控指标,以深入了解Hadoop服务器的性能,可用性和使用情况统计信息。

Hadoop性能监控指标:

通过跟踪关键指标,轻松排查Hadoop环境,包括:

总负载

“total_load”为我们提供了Hadoop设置中所有数据节点的文件访问量度。

已用空间

“used_space”为我们提供了已消耗的空间总量,并且无法在Hadoop配置的系统中进一步使用。

可用空间

“free_space”为我们提供了尚未消耗的空间总量,可在Hadoop配置系统中进一步使用。

缺少块

度量标准“missing_blocks”给出了Hadoop设置中缺少的内存块数。

损坏的块

“corrupt_blocks”给出了Hadoop设置中损坏的内存块的数量。

配置容量

度量标准“configured_capacity”列出了为Hadoop设置中的名称节点配置的总空间量。

剩余百分比

度量标准“percent_remaining”为我们提供了在Hadoop设置名称节点中剩余可用空间的百分比。

总块数

“total_blocks”列出了在Hadoop设置名称节点中创建的内存块数。

总文件数

度量标准“total_files”列出了Hadoop设置名称节点中的文件总数。

线程数

“number_of_threads”列出了当前在Hadoop设置名称节点中运行的线程数。

整体空间

“total_space”给出了Hadoop设置数据节点中可用总空间的度量。

剩余的空间

“remaining_space”给出了Hadoop设置数据节点中可用的未使用空间总量的度量。

DFS使用了空间

度量标准“dfs_used_space”用于衡量由于数据节点而导致的Hadoop设置中的总使用空间。

非DFS使用空间

由于数据节点以外的原因,“non_dfs_used_space”给出了Hadoop设置中总使用空间的度量。

活动节点

“activenodes”并获取当前活动使用的Hadoop设置中的节点数。

总/分配的MB

使用指标“totalMB”,“allocatedMB”并获取Hadoop设置中的总内存量以及是否已将其分配用于其他目的的统计信息。

可用/保留MB

使用指标“availableMB”,“reservedMB”并获取Hadoop设置中可供使用的内存总量,或保留用于其他目的。

总/分配的虚拟核心

使用度量标准“totalMB”,“allocatedvirtualcores”并获取虚拟核心总数以及是否已为Hadoop配置系统中的作业分配它们的统计信息。

可用/预留的虚拟核心

使用指标“availablevirtualcores”,“reservedMB”并获取可供使用的虚拟核心总数,或者在Hadoop配置的系统中保留用于其他目的。

提交/完成/失败的申请

使用指标“appssubmitted”,“appscompleted”,“appsfailed”并计算已在Hadoop系统中提交,已完成运行或失败的应用程序总数。

应用程序已终止/正在/正在运

使用指标“appskilled”,“appspending”,“appsrunning”并计算已杀死,待处理或仍在Hadoop系统中运行的应用程序总数。

分配/待处理的容器

在Hadoop中,容器是一个工作单元发生的地方。使用度量“containersAllocated”,“containersPending”并获取已在Hadoop设置中分配或仍在等待分配的所有容器的总数。

容器保留/运行

在Hadoop中,容器是一个工作单元发生的地方。使用度量“containersReserved”,“runningContainers”并获取保留或仍在Hadoop设置中运行的所有容器的总数。

总/退役节点

使用指标“totalNodes”,“decommissionedNodes”获取所有节点的总数以及系统中已停用的数量。

丢失/重启/不健康的节点

使用指标“lostNodes”,“rebo​​otedNodes”,“unhealthyNodes”,获取系统中丢失,重新启动或运行状况不佳的所有节点的总数。

经过的时间

度量标准“elapsedTime”将获得群集执行所花费的总时间。

记忆秒数

度量标准“memoryseconds”将获得应用程序分配的累计内存量(以兆字节为单位)乘以应用程序运行的秒数。

进展

“progress”将记录当前工作状态的完成百分比。

上次健康更新

“lastHealthUpdate”将记录自Hadoop配置系统中发生运行状况更新以来的时间。

这个怎么运作?

先决条件:

  • 确保Hadoop已安装在服务器中并且已启动并正在运行。

Hadoop插件安装:

  • 为Site24x7 Linux Agent的插件目录下的名称为“hadoop”,“hadoop_namenode”,“hadoop_datanode”,“hadoop_resourcemanager_metrics”,“hadoop_resourcemanager_appmetrics”,“hadoop_resourcemanager_nodemetrics”的所有插件创建单独的目录 - / opt / site24x7 / monagent / plugins /
  • cd / opt / site24x7 / monagent / plugins /
    sudo mkdir hadoop
    sudo mkdir hadoop_namenode
    sudo mkdir hadoop_datanode
    sudo mkdir hadoop_resourcemanager_metrics
    sudo mkdir hadoop_resourcemanager_appmetrics
    sudo mkdir hadoop_resourcemanager_nodemetrics
  • 从我们的GitHub存储库下载文件“ ”hadoop.py“并将其放在”hadoop“目录下
  • cd hadoop
    sudo wget https://raw.githubusercontent.com/site24x7/plugins/master/hadoop/hadoop.py
  • 从我们的GitHub存储库下载文件“hadoop_namenode.py”并将其放在“hadoop_namenode”目录下
  • cd hadoop_namenode
    sudo wget https://raw.githubusercontent.com/site24x7/plugins/master/hadoop_namenode/hadoop_namenode.py
  • 从我们的GitHub存储库下载文件“hadoop_datanode.py”并将其放在“hadoop_datanode”目录下
  • cd hadoop_datanode
    sudo wget https://raw.githubusercontent.com/site24x7/plugins/master/hadoop_datanode/hadoop_datanode.py
  • 从我们的GitHub存储库下载文件“hadoop_resourcemanager_metrics.py”并将其放在“hadoop_resourcemanager_metrics”目录下
  • cd hadoop_resourcemanager_metrics
    sudo wget https://raw.githubusercontent.com/site24x7/plugins/master/hadoop_resourcemanager_metrics/hadoop_resourcemanager_metrics.py
  • 从我们的GitHub存储库下载文件“hadoop_resourcemanager_appmetrics.py”并将其放在“hadoop_resourcemanager_appmetrics”目录下
  • cd hadoop_resourcemanager_appmetrics
    sudo wget https://raw.githubusercontent.com/site24x7/plugins/master/hadoop_resourcemanager_appmetrics/hadoop_resourcemanager_appmetrics.py
  • 从我们的GitHub存储库下载文件“hadoop_resourcemanager_nodemetrics.py”并将其放在“hadoop_resourcemanager_nodemetrics”目录下
  • cd hadoop_resourcemanager_nodemetrics
    sudo wget https://raw.githubusercontent.com/site24x7/plugins/master/hadoop_resourcemanager_nodemetrics/hadoop_resourcemanager_nodemetrics.py

Hadoop插件配置:

  • 插件脚本中给出的默认python路径是#!/ usr / bin / python。如果您希望提供备用python路径,请替换前面带有shebang字符“#!”的现有路径。
  • 配置Hadoop插件的主机和端口值
  • 例如:
    HOST =“localhost”
    ADMINPORT =“4848”
  • 所有其他插件也可以进行相同的编辑。
  • 保存更改并重新启动代理。
  • /etc/init.d/site24x7monagent restart

监控其他指标:

  • 要监控其他指标,请编辑任何一个插件文件并添加需要监控的新指标
  • 增加插件文件中的插件版本值以查看新添加的度量标准(例如,将默认插件版本从PLUGIN_VERSION =“1”更改为“PLUGIN_VERSION =”2“)

相关插件:

  • Redis插件 - 监控Redis数据库的性能指标
  • Postgres插件 - 监控Postgres数据库的性能指标
  • CouchDB插件 - 分析CouchDB服务器的性能
  • Nagios插件 - 在Site24x7中执行数千个Nagios插件,无需运行Nagios服务器
  • 开箱即用的插件 - 使用我们广泛的集成列表监控整个应用程序堆栈
  • 创建自定义插件 - 创建自定义LinuxWindows插件并监视自定义属性
可信

世界领先的公司

客户

没有Site24x7帐户?立即注册