以容器部署Ganglia并监控Hadoop集群

作者：手机用户2702935720 | 来源：互联网 | 2023-05-18 12:10

网上有很多Ganglia部署的教程，每一个我都觉得繁琐，我的目的只是用来监控Hadoop测试集群，能即刻使用才是王道，于是我想到通过Rancher部署Ganglia应用服务（类似于我在上一篇

网上有很多Ganglia部署的教程，每一个我都觉得繁琐，我的目的只是用来监控Hadoop测试集群，能即刻使用才是王道，于是我想到通过Rancher部署Ganglia应用服务（类似于我在上一篇文章中部署Jmeter容器集群的方式），以容器的方式一键部署，省去了中间繁琐的安装过程。

第一步：安装部署Docker

1、对于CantOS安装Docker最好是CentOS7，这样可以保证内核至少是3.10（通过uname -r 命令查看），低于这个版本的内核无法安装Docker。
2、使用 root 权限登录 Centos。确保 yum 包更新到最新（sudo yum update）。
3、卸载旧版本(如果安装过旧版本的话)
sudo yum remove docker docker-common docker-selinux docker-engine
4、安装需要的软件包， yum-util 提供yum-config-manager功能，另外两个是devicemapper驱动依赖的
sudo yum install -y yum-utils device-mapper-persistent-data lvm2
5、设置yum源
sudo yum-config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo
6、直接安装最新版的docker（记住版本宁可最新，也不要低于Rancher所要求的版本）
sudo yum install docker-ce
7、启动并加入开机启动
sudo systemctl start docker
sudo systemctl enable docker

第二步：部署安装Rancher

Rancher最好部署在独立的机器上，毕竟是Docker管理平台，需要有足够的资源和空间，由于我的另一篇文章《搭建Jmeter容器集群平台》已经介绍了Rancher的部署，在这里我就不多写了，而且我用的就是当初部署好的Rancher。

第三步：添加主机

在Rancher->基础架构->主机->添加主机（Custer），直接将页面上的脚本，复制到Ganglia对应的主机（Linux）上运行，举例如下（确保没有防火墙封禁端口）：

sudo docker run --rm --privileged -v /var/run/docker.sock:/var/run/docker.sock -v /var/lib/rancher:/var/lib/rancher rancher/agent:v1.2.10 http://172.16.1.30:8080/v1/scripts/5F5DD52AF831DB9BB4AF:1514678400000:JTVmpDRKXUlm1TtU93FgwforgIA

第四步：添加Ganglia容器

先用docker search ganglia命令搜索一下公共库里有哪些可用的ganglia镜像：

我们就用搜索到的第一个镜像就行，安装的方式有两种，一种是直接在主机管理界面上添加容器，如下：

主要是选择要下载调用的镜像，映射的端口，调度规则（设置需要在哪台主机上部署容器，如果不设置的话，就按Rancher的规则从多台主机中挑一台）

另一种方式是我推荐的，就是通过docker-compose配置文件安装，而且是以应用服务的方式对外提供服务：

1、用编辑器编写如下docker-compose.yml：

version: '2'
services:
  ganglia:
    image: wookietreiber/ganglia
    stdin_open: true
    tty: true
    ports:
    - 8649:8649/tcp
    - 8651:8651/tcp
    - 8652:8652/tcp
    - 8661:8661/tcp
    - 2003:2003/tcp
    - 80:80/tcp
    - 6343:6343/udp
    labels:
      io.rancher.container.pull_image: always
      io.rancher.scheduler.affinity:host_label: host.ip=172.17.2.130

和rancher-compose.yml：

version: '2'
services:
  ganglia:
    scale: 1
    start_on_create: true

2、在Rancher的应用->用户->添加应用：输入应用名，选择docker-compose.yml和rancher-compose.yml。

点击【创建】按钮，就能成功创建应用和容器服务。通过http://172.17.2.130/ganglia/就能够直接访问了ganglia了

由于这个镜像安装的ganglia是默认的组播模式（不需要固定的Server IP，比较方便），所以我们以下的监控配置就按组播模式进行配置。

第五步：在hadoop集群节点机器上部署监控代理gmond

yum -y install epel-release
yum -y install ganglia-mond

由于用组播模式，并较省事，什么配置都不用改，为了能让hadoop集群能标识出来，我们改一下cluster name

vi /etc/ganglia/gmond.conf

cluster {
name = "hadoop"
owner = "unspecified"
latlOng= "unspecified"
url = "unspecified"

}

三个hadoop节点（无论主从）全是按这么操作。然后启动各节点的gmood：

systemctl start gmond.service （如果是centos6.5，用service gmond start启动）
systemctl enable gmond.service

由于ganglia容器部署完后，上面自带有gmond节点，为了跟hadoop集群的gmond以示区别，我们进入ganglia容器下，把gmond.conf配置改掉：

vi /etc/ganglia/gmond.conf，按如下把原来的8649端口改成8661（跟hadoop节点监控端口区别开）

第六步：修改ganglia中的gmetad

gmetad会定期检查gmond，从那里拉取数据，并将他们的指标存储在RRD存储引擎中。也可以查询多个集群并聚合指标。所以配好它，才能收集各个节点的监控数据。

进入ganglia容器中，vi /etc/ganglia/gmetad.conf

由于是组播模式，什么都不用动了，主需要修改一下data_source参数如下：

data_source "my cluster" localhost:8661
data_source "hadoop" 10 172.17.2.171:8649 172.17.2.186:8649 172.17.2.187:8649

以上的修改目的是，localhost的监控端口变了，所以加上8661，hadoop是我们新加的监控集群，所以添加一个data_source，每10秒轮询一次，其中监控端口8649是默认的，可以不写。

这样我们就可以重启ganglia容器，然后再回到http://172.17.2.130/ganglia/，就能看到新加入的节点和集群了：

第七步：修改hadoop配置

前面说了那么多，其实都是为了这一步准备，我们要监控hadoop，就必须让hadoop各节点的ganglia metrics接口开放，通过修改hadoop配置文件目录下的hadoop-metrics2.properties：

namenode.sink.ganglia.servers=239.2.11.71:8649
datanode.sink.ganglia.servers=239.2.11.71:8649
jobtracker.sink.ganglia.servers=239.2.11.71:8649
tasktracker.sink.ganglia.servers=239.2.11.71:8649
maptask.sink.ganglia.servers=239.2.11.71:8649
reducetask.sink.ganglia.servers=239.2.11.71:8649
resourcemanager.sink.ganglia.servers=239.2.11.71:8649
nodemanager.sink.ganglia.servers=239.2.11.71:8649
historyserver.sink.ganglia.servers=239.2.11.71:8649
journalnode.sink.ganglia.servers=239.2.11.71:8649
nimbus.sink.ganglia.servers=239.2.11.71:8649
supervisor.sink.ganglia.servers=239.2.11.71:8649

以上标粗部分是通用配置的（其它是在Ambari下的HDP集群建议加配的），另外由于是组播模式，IP需要设置成239.2.11.71（这个IP就能互相找到各个监控与被监控节点，如果不放心，可以在各个节点上添加路由到组播地址ip route add 239.2.11.71 dev eth0）。

另外如果是用Ambari管理的hadoop集群，修改hadoop-metrics2.properties是需要在Ambari管理界面上进行的，通过HDFS的Configs->Advanced完成配置，需要注意的是Ambari本身有一套监控接口（用的是metric_collector，默认是开启的），如果我们要同时用ganglia监控，就要求把ganglia.servers参数的注释去掉，替换servers ip为239.2.11.71，同时ganglia_server应该为允许，可以直接将{% if has_ganglia_server %}和对应的{% endif %}去掉，最终配置为：

#  if has_ganglia_server 
*.period=60

*.sink.ganglia.class=org.apache.hadoop.metrics2.sink.ganglia.GangliaSink31
*.sink.ganglia.period=10

# default for supportsparse is false
*.sink.ganglia.supportsparse=true

.sink.ganglia.slope=jvm.metrics.gcCount=zero,jvm.metrics.memHeapUsedM=both
.sink.ganglia.dmax=jvm.metrics.threadsBlocked=70,jvm.metrics.memHeapUsedM=40

# Hook up to the server
namenode.sink.ganglia.servers=239.2.11.71:8649
datanode.sink.ganglia.servers=239.2.11.71:8649
jobtracker.sink.ganglia.servers=239.2.11.71:8649
tasktracker.sink.ganglia.servers=239.2.11.71:8649
maptask.sink.ganglia.servers=239.2.11.71:8649
reducetask.sink.ganglia.servers=239.2.11.71:8649
resourcemanager.sink.ganglia.servers=239.2.11.71:8649
nodemanager.sink.ganglia.servers=239.2.11.71:8649
historyserver.sink.ganglia.servers=239.2.11.71:8649
journalnode.sink.ganglia.servers=239.2.11.71:8649
nimbus.sink.ganglia.servers=239.2.11.71:8649
supervisor.sink.ganglia.servers=239.2.11.71:8649

resourcemanager.sink.ganglia.tagsForPrefix.yarn=Queue

# endif

保存修改的配置，重启hadoop集群服务。然后不出意外就能看到hadoop的监控指标（如果不行，可以把主从节点和ganglia容器都重启一遍）：

最后一步：验证监控结果

最后我们就可以享受监管结果了，不只是能监控hadoop集群的资源使用情况（CPU、内存、磁盘负载、网络负载），还能看到以下的hadoop JvmMetrics监控指标，基本是全面监控。

其实监控方式和原理都与Ambari自带的监控框架一样，所以ganglia是用来满足对传统hadoop集群或其它集群服务器的监控，至于用Ambari或Cloudera Manager部署及管理的Hadoop集群，用管理平台自带的监控框架就行了。但是本文的目的不只是为了说明如何快速构建和应用ganglia监控，而是更想表达容器化是非常有助于我们快速构建测试环境和性能监控环境，这对于性能测试来讲非常重要，特别是我们面对大量云端化或集群化服务的测试。

推荐阅读

架构
Docker安全策略与管理

本文探讨了Docker的安全挑战、核心安全特性及其管理策略，旨在帮助读者深入理解Docker安全机制，并提供实用的安全管理建议。 ... [详细]

蜡笔小新 2024-11-21 20:03:03
java
Maven + Spring + MyBatis + MySQL 环境搭建与实例解析

本文详细介绍如何使用MySQL数据库进行环境搭建，包括创建数据库表并插入示例数据。随后，逐步指导如何配置Maven项目，整合Spring框架与MyBatis，实现高效的数据访问。 ... [详细]

蜡笔小新 2024-11-21 18:39:23
utf-8
SIP基础概览

本文介绍了SIP（Session Initiation Protocol，会话发起协议）的基本概念、功能、消息格式及其实现机制。SIP是一种在IP网络上用于建立、管理和终止多媒体通信会话的应用层协议。 ... [详细]

蜡笔小新 2024-11-21 17:42:08
list
华为鲲鹏平台适配的Redis Docker镜像构建指南

本文详细介绍如何在华为鲲鹏平台上构建和使用适配ARM架构的Redis Docker镜像，解决常见错误并提供优化建议。 ... [详细]

蜡笔小新 2024-11-19 15:04:08
command
centos 7.0 lnmp成功安装过程（很乱）

下载nginx[rootlocalhostsrc]#wgethttp:nginx.orgdownloadnginx-1.7.9.tar.gz--2015-01-2412:55:2 ... [详细]

蜡笔小新 2024-11-15 14:20:54
list
Linux 防火墙与端口管理必备命令

在使用 Linux 系统进行服务部署和问题排查时，防火墙和端口管理是不可或缺的操作。本文将详细介绍如何查看防火墙状态、端口占用情况，以及如何开放和关闭端口，帮助初学者更好地掌握这些技能。 ... [详细]

蜡笔小新 2024-11-15 12:19:50
shell
C/C++ 应用程序的安装与卸载解决方案

本文介绍了如何使用Inno Setup来创建C/C++应用程序的安装程序，包括自动检测并安装所需的运行库，确保应用能够顺利安装和卸载。 ... [详细]

蜡笔小新 2024-11-23 13:44:53
数组
使用Matlab创建动态GIF动画

动态GIF图可以有效增强数据表达的直观性和吸引力。本文将详细介绍如何利用Matlab软件生成动态GIF图，涵盖基本代码实现与高级应用技巧。 ... [详细]

蜡笔小新 2024-11-22 16:52:32
shell
设置Shadowsocks公共代理的关键步骤

本文详细介绍了如何正确设置Shadowsocks公共代理，包括调整超时设置、检查系统限制、防止滥用及遵守DMCA法规等关键步骤。 ... [详细]

蜡笔小新 2024-11-20 20:41:33
shell
如何在Mozilla Firefox中调整GIF动画的循环次数

本文介绍了如何通过调整Mozilla Firefox的高级设置来控制GIF动画的播放次数，帮助用户根据个人喜好自定义浏览体验。 ... [详细]

蜡笔小新 2024-11-19 19:36:54
shell
Kafka入门指南

本文将详细介绍如何在CentOS 7上安装和配置Kafka，包括必要的环境准备、JDK和Zookeeper的配置步骤。 ... [详细]

蜡笔小新 2024-11-18 17:41:13
python
CentOS 7 下 Python 3.7 的安装与配置

本文详细介绍了在 CentOS 7 系统中安装 Python 3.7 的步骤，包括编译工具的安装、Python 3.7 源码的下载与编译、软链接的创建以及常见错误的处理方法。 ... [详细]

蜡笔小新 2024-11-18 12:21:04
shell
CentOS7通过RealVNC实现多人使用服务器桌面

背景：公司研发团队通过VNC登录到CentOS服务器的桌面实现软件开发工作为防止数据外泄，需要在RealVNC设置禁止传输文件、访问粘贴板等策略过程&# ... [详细]

蜡笔小新 2024-11-18 09:22:21
shell
Kubernetes 1.9.0 Alpha.1 发布公告 [Kubernetes 最新动态]

近日，Kubernetes 社区发布了两个新版本：1.8.0 RC.1 和 1.9.0 Alpha.1。这是 k8s 1.9.0 的首次发布，自 v1.8.0 Alpha.3 以来进行了大量更新，共提交了 279 次。 ... [详细]

蜡笔小新 2024-11-17 19:22:13
get
CentOS 6.4 安装 QT5 时无法找到 GLIBCXX_3.4.15 的解决方案

在 CentOS 6.4 上安装 QT5 并启动 Qt Creator 时，可能会遇到缺少 GLIBCXX_3.4.15 的问题。这是由于系统中的 libstdc++.so.6 版本过低。本文将详细介绍如何通过更新 GCC 版本来解决这一问题。 ... [详细]

蜡笔小新 2024-11-13 16:52:41

手机用户2702935720

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章