当前位置: 开发笔记 > 编程语言 > 正文

HadoopHA高可用之旅

作者：开心小笨笨猪 | 来源：互联网 | 2023-09-09 19:58

HadoopHA高可用之旅概述HDFS-HA集群搭建HDFS-HA核心问题HDFS-HA手动模式环境准备规划集群配置HDFS-HA集群官方地址在opt目录下创建一个ha文件夹将op

Hadoop HA 高可用之旅

概述
HDFS-HA 集群搭建
- HDFS-HA 核心问题
HDFS-HA 手动模式
- 环境准备
- 规划集群
- 配置 HDFS-HA 集群
- - 官方地址
  - 在 opt 目录下创建一个 ha 文件夹
  - 将/opt/module/下的 hadoop-3.1.3 拷贝到/opt/ha 目录下&＃xff08;记得删除 data 和 log 目录&＃xff09;
  - 配置 core-site.xml
  - 配置 hdfs-site.xml
  - 分发配置好的 hadoop 环境到其他节点
- 启动 HDFS-HA 集群
- - 将 HADOOP_HOME 环境变量更改到 HA 目录(三台机器)
  - 在各个 JournalNode 节点上&＃xff0c;输入以下命令启动 journalnode 服务
  - 在[nn1]上&＃xff0c;对其进行格式化&＃xff0c; 并启动
  - 在[nn2]和[nn3]上&＃xff0c;同步 nn1 的元数据信息
  - 启动[nn2]和[nn3]
  - 查看 web 页面显示
  - 在所有节点上&＃xff0c;启动 datanode
  - 将[nn1]切换为 Active
  - 查看是否 Active
HDFS-HA 自动模式
- HDFS-HA 自动故障转移工作机制
- HDFS-HA 自动故障转移的集群规划
- 配置 HDFS-HA 自动故障转移
- - 具体配置
  - 启动
  - 验证
- 解决 NN 连接不上 JN 的问题
YARN-HA 配置
- YARN-HA 工作机制
- 配置 YARN-HA 集群
- - 环境准备
  - 规划集群
  - 核心问题
  - 具体配置
  - 启动 YARN
HADOOP HA 的最终规划

概述

HA&＃xff08;High Availablity&＃xff09;: 高可用&＃xff08;7*24 小时不中断服务&＃xff09;
实现高可用的策略 : 消除单点故障。 HA 严格来说应该分成各个组件的 HA机制&＃xff1a; HDFS 的 HA 和 YARN 的 HA
NameNode 主要在以下两个方面影响 HDFS 集群 :
NameNode 机器发生意外&＃xff0c;如 : 宕机&＃xff0c;集群将无法使用&＃xff0c;直到管理员重启
NameNode 机器需要升级&＃xff0c;如 : 软件、硬件升级&＃xff0c;此时集群也将无法使用

HDFS HA 功能通过配置多个 NameNodes(Active / Standby) 实现在集群中对 NameNode 的热备来解决这些问题

如果出现故障&＃xff0c;如 : 机器崩溃或机器需要升级维护&＃xff0c;就通过 HA 将 NameNode 很快的切换到另外一台机器

HDFS-HA 集群搭建

当前 HDFS 集群的规划

cpucode101	cpucode102	cpucode103
NameNode		Secondarynamenode
DataNode	DataNode	DataNode

HA 目的 : 消除 NameNode 的单点故障 , 所以 HDFS 集群规划成以下模样

cpucode101	cpucode102	cpucode103
NameNode	NameNode	NameNode
DataNode	DataNode	DataNode

HDFS-HA 核心问题

保证三台 namenode 的数据一致

Fsimage : 让一台 nn 生成数据 , 让其他机器 nn 同步
Edits : 需要引进新的模块 JournalNode 来保证 edtis 的文件的数据一致性

同时只有一台 nn 是 active&＃xff0c;其他所有是 standby

手动分配
自动分配

2nn 在 ha 架构中并不存在&＃xff0c;定期合并 fsimage 和 edtis 的活谁来干

由 standby 的 nn 来干

nn 真的发生了问题&＃xff0c;怎么让其他的 nn 上位干活

手动故障转移
自动故障转移

HDFS-HA 手动模式

环境准备

修改 IP
修改主机名及主机名和 IP 地址的映射
关闭防火墙
ssh 免密登录
安装 JDK&＃xff0c;配置环境变量等

规划集群

cpucode100	cpucode101	cpucode102
NameNode	NameNode	NameNode
JournalNode	JournalNode	JournalNode
DataNode	DataNode	DataNode

配置 HDFS-HA 集群

官方地址

http://hadoop.apache.org/

在 opt 目录下创建一个 ha 文件夹

cd /opt

sudo mkdir ha

将/opt/module/下的 hadoop-3.1.3 拷贝到/opt/ha 目录下&＃xff08;记得删除 data 和 log 目录&＃xff09;

cp -r /opt/module/hadoop-3.1.3 /opt/ha/

配置 core-site.xml

<configuration><property><name>fs.defaultFSname><value>hdfs://myclustervalue>property><property><name>hadoop.tmp.dirname><value>/opt/ha/hadoop-3.1.3/datavalue>property> configuration>

配置 hdfs-site.xml

<configuration><property><name>dfs.namenode.name.dirname><value>file://${hadoop.tmp.dir}/namevalue>property><property><name>dfs.datanode.data.dirname><value>file://${hadoop.tmp.dir}/datavalue>property><property><name>dfs.journalnode.edits.dirname><value>${hadoop.tmp.dir}/jnvalue>property><property><name>dfs.nameservicesname><value>myclustervalue>property><property><name>dfs.ha.namenodes.myclustername><value>nn1,nn2,nn3value>property><property><name>dfs.namenode.rpc-address.mycluster.nn1name><value>cpucode100:8020value>property><property><name>dfs.namenode.rpc-address.mycluster.nn2name><value>cpucode101:8020value>property><property><name>dfs.namenode.rpc-address.mycluster.nn3name><value>cpucode102:8020value>property><property><name>dfs.namenode.http-address.mycluster.nn1name><value>cpucode100:9870value>property><property><name>dfs.namenode.http-address.mycluster.nn2name><value>cpucode101:9870value>property><property><name>dfs.namenode.http-address.mycluster.nn3name><value>cpucode102:9870value>property><property><name>dfs.namenode.shared.edits.dirname><value>qjournal://cpucode100:8485;cpucode101:8485;cpucode102:8485/myclustervalue>property><property><name>dfs.client.failover.proxy.provider.myclustername><value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvidervalue>property><property><name>dfs.ha.fencing.methodsname><value>sshfencevalue>property><property><name>dfs.ha.fencing.ssh.private-key-filesname><value>/home/root/.ssh/id_rsavalue>property> configuration>

分发配置好的 hadoop 环境到其他节点

xsync /ha

启动 HDFS-HA 集群

将 HADOOP_HOME 环境变量更改到 HA 目录(三台机器)

sudo vim /etc/profile.d/my_env.sh

将 HADOOP_HOME 部分改为如下

#HADOOP_HOMEexport HADOOP_HOME&＃61;/opt/ha/hadoop-3.1.3 export PATH&＃61;$PATH:$HADOOP_HOME/bin export PATH&＃61;$PATH:$HADOOP_HOME/sbin

去三台机器上 source 环境变量

source /etc/profile

在各个 JournalNode 节点上&＃xff0c;输入以下命令启动 journalnode 服务

hdfs --daemon start journalnode

在[nn1]上&＃xff0c;对其进行格式化&＃xff0c; 并启动

hdfs namenode -format

hdfs --daemon start namenode

在[nn2]和[nn3]上&＃xff0c;同步 nn1 的元数据信息

hdfs namenode -bootstrapStandby

启动[nn2]和[nn3]

hdfs --deamon start namenode

查看 web 页面显示

在所有节点上&＃xff0c;启动 datanode

hdfs --deamon start datanode

将[nn1]切换为 Active

hdfs haadmin &＃61;&＃61;transitionToActive nn1

查看是否 Active

hdfs haadmin -getServiceState nn1
HDFS-HA 自动模式

HDFS-HA 自动故障转移工作机制

自动故障转移为 HDFS 部署增加了两个新组件&＃xff1a; ZooKeeper 和 ZKFailoverController&＃xff08;ZKFC&＃xff09;进程&＃xff0c;如图所示。 ZooKeeper 是维护少量协调数据&＃xff0c;通知客户端这些数据的改变和监视客户端故障的高可用服务

在这里插入图片描述

同时出现两个 Active 状态
namenode 的术语叫脑裂 brain split

防止脑裂的两种方式&＃xff1a;

ssh发送kill指令
调用用户自定义脚本程序

HDFS-HA 自动故障转移的集群规划

cpucode100	cpucode101	cpucode102
NameNode	NameNode	NameNode
JournalNode	JournalNode	JournalNode
DataNode	DataNode	DataNode
Zookeeper	Zookeeper	Zookeeper
ZKFC	ZKFC	ZKFC

配置 HDFS-HA 自动故障转移

具体配置

hdfs-site.xml

<property><name>dfs.ha.automatic-failover.enabledname><value>truevalue>property>

core-site.xml

<property><name>ha.zookeeper.quorumname><value>cpucode100:2181,cpucode101:2181,cpucode102:2181value>property>

修改后分发配置文件

xsync hadoop/

启动

关闭所有 HDFS 服务

stop-dfs.sh

启动 Zookeeper 集群

zkServer.sh start

启动 Zookeeper 以后&＃xff0c; 然后再初始化 HA 在 Zookeeper 中状态

hdfs zkfc -formatZK

启动 HDFS 服务

start-dfs.sh

zkCli.sh 客户端查看 Namenode 选举锁节点内容

get -s /hadoop-ha/mycluster/ActiveStandbyElectorLock

验证

将 Active NameNode 进程 kill&＃xff0c;查看网页端三台 Namenode 的状态变化

kill -9 namenode 的进程 id

解决 NN 连接不上 JN 的问题

自动故障转移配置好以后&＃xff0c;然后使用 start-dfs.sh 群起脚本启动 hdfs 集群&＃xff0c;有可能会遇到 NameNode 起来一会后&＃xff0c;进程自动关闭的问题

查看报错日志&＃xff0c;可分析出报错原因是因为 NameNode 连接不上 JournalNode&＃xff0c;而利用 jps 命令查看到三台 JN 都已经正常启动&＃xff0c;为什么 NN 还是无法正常连接到 JN 呢&＃xff1f;这是因为 start-dfs.sh 群起脚本默认的启动顺序是先启动 NN&＃xff0c;再启动 DN&＃xff0c;然后再启动 JN&＃xff0c;并且默认的 rpc 连接参数是重试次数为 10&＃xff0c;每次重试的间隔是 1s&＃xff0c;也就是说启动完 NN以后的 10s 中内&＃xff0c; JN 还启动不起来&＃xff0c; NN 就会报错了

core-default.xml

<property><name>ipc.client.connect.max.retriesname><value>10value>property><property><name>ipc.client.connect.retry.intervalname><value>1000value>property>

解决方案&＃xff1a;遇到上述问题后&＃xff0c;可以稍等片刻&＃xff0c;等 JN 成功启动后&＃xff0c;手动启动下三台 NN&＃xff1a;

hdfs --daemon start namenode

core-site.xml里面适当调大上面的两个参数

<property><name>ipc.client.connect.max.retriesname><value>20value>property><property><name>ipc.client.connect.retry.intervalname><value>5000value>property>
YARN-HA 配置

官网 : https://hadoop.apache.org/docs/r3.1.3/hadoop-yarn/hadoop-yarn-site/ResourceManagerHA

YARN-HA 工作机制

在这里插入图片描述

配置 YARN-HA 集群

环境准备

修改 IP
修改主机名及主机名和 IP 地址的映射
关闭防火墙
ssh 免密登录
安装 JDK&＃xff0c;配置环境变量等
配置 Zookeeper 集群

规划集群

cpucode100	cpucode101	cpucode102
ResourceManager	ResourceManager	ResourceManager
NodeManager	NodeManager	NodeManager
Zookeeper	Zookeeper	Zookeeper

核心问题

当前 active rm 挂了&＃xff0c;其他 rm 怎么将其他 standby rm 上位

核心原理跟 hdfs 一样&＃xff0c;利用了 zk 的临时节点

前 rm 上有很多的计算程序在等待运行 ,其他的 rm 怎么将这些程序接手过来接着跑

rm 会将当前的所有计算程序的状态存储在 zk 中,其他 rm 上位后会去读取&＃xff0c;然后接着跑

具体配置

yarn-site.xml

<configuration><property><name>yarn.nodemanager.aux-servicesname><value>mapreduce_shufflevalue>property><property><name>yarn.resourcemanager.ha.enabledname><value>truevalue>property><property><name>yarn.resourcemanager.cluster-idname><value>cluster-yarn1value>property><property><name>yarn.resourcemanager.ha.rm-idsname><value>rm1,rm2,rm3value>property><property><name>yarn.resourcemanager.hostname.rm1name><value>cpucode100value>property><property><name>yarn.resourcemanager.webapp.address.rm1name><value>cpucode100:8088value>property><property><name>yarn.resourcemanager.address.rm1name><value>cpucode100:8032value>property><property><name>yarn.resourcemanager.scheduler.address.rm1name><value>cpucode100:8030value>property><property><name>yarn.resourcemanager.resource-tracker.address.rm1name><value>cpucode100:8031value>property><property><name>yarn.resourcemanager.hostname.rm2name><value>cpucode101value>property><property><name>yarn.resourcemanager.webapp.address.rm2name><value>cpucode101:8088value>property><property><name>yarn.resourcemanager.address.rm2name><value>cpucode101:8032value>property><property><name>yarn.resourcemanager.scheduler.address.rm2name><value>cpucode101:8030value>property><property><name>yarn.resourcemanager.resource-tracker.address.rm2name><value>cpucode101:8031value>property><property><name>yarn.resourcemanager.hostname.rm3name><value>cpucode102value>property><property><name>yarn.resourcemanager.webapp.address.rm3name><value>cpucode102:8088value>property><property><name>yarn.resourcemanager.address.rm3name><value>cpucode102:8032value>property><property><name>yarn.resourcemanager.scheduler.address.rm3name><value>cpucode102:8030value>property><property><name>yarn.resourcemanager.resource-tracker.address.rm3name><value>cpucode102:8031value>property><property><name>yarn.resourcemanager.zk-addressname><value>cpucode100:2181,cpucode101:2181,cpucode102:2181value>property><property><name>yarn.resourcemanager.recovery.enabledname><value>truevalue>property><property><name>yarn.resourcemanager.store.classname><value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStorevalue>property><property><name>yarn.nodemanager.env-whitelistname><value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOMEvalue>property> configuration>

同步更新其他节点的配置信息&＃xff0c;分发配置文件

xsync hadoop/

启动 YARN

在 cpucode100 或者 cpucode101 中执行&＃xff1a;

start-yarn.sh

查看服务状态

yarn rmadmin -getServiceState rm1

可以去 zkCli.sh 客户端查看 ResourceManager 选举锁节点内容

zkCli.sh

get -s /yarn-leader-election/cluster-yarn1/ActiveStandbyElectorLock

web 端查看 cpucode100:8088 和 cpucode101:8088 的 YARN 的状态

HADOOP HA 的最终规划

cpucode100	cpucode101	cpucode102
NameNode	NameNode	NameNode
JournalNode	JournalNode	JournalNode
DataNode	DataNode	DataNode
Zookeeper	Zookeeper	Zookeeper
ZKFC	ZKFC	ZKFC
ResourceManager	ResourceManager	ResourceManager
NodeManager	NodeManager	NodeManager

推荐阅读

char
InfluxDB、collectd与Grafana的详细安装与配置指南

本文详细介绍了 InfluxDB、collectd 和 Grafana 的安装与配置流程。首先，按照启动顺序依次安装并配置 InfluxDB、collectd 和 Grafana。InfluxDB 作为时序数据库，用于存储时间序列数据；collectd 负责数据的采集与传输；Grafana 则用于数据的可视化展示。文中提供了 collectd 的官方文档链接，便于用户参考和进一步了解其配置选项。通过本指南，读者可以轻松搭建一个高效的数据监控系统。 ... [详细]

蜡笔小新 2024-11-11 19:54:24
client
TCP三次握手过程详解与图示解析

本文详细解析了TCP三次握手的过程，并通过图示清晰展示了各个状态的变化。同时，文章还介绍了四次挥手的图解，解释了在TIME_WAIT状态中，客户端最后一次发送的ACK包的作用和重要性。 ... [详细]

蜡笔小新 2024-11-06 08:31:52
get
解决Only fullscreen opaque activities can request orientation错误的方法

本文介绍了在使用PictureSelectorLight第三方框架时遇到的Only fullscreen opaque activities can request orientation错误，并提供了一种有效的解决方案。 ... [详细]

蜡笔小新 2024-11-13 09:46:25
netty
面试中如何回答“零拷贝”技术问题？

零拷贝技术是提高I/O性能的重要手段，常用于Java NIO、Netty、Kafka等框架中。本文将详细解析零拷贝技术的原理及其应用。 ... [详细]

蜡笔小新 2024-11-13 02:03:52
function
开机自启动的几种方式

0x01快速自启动目录快速启动目录自启动方式源于Windows中的一个目录，这个目录一般叫启动或者Startup。位于该目录下的PE文件会在开机后进行自启动 ... [详细]

蜡笔小新 2024-11-12 11:16:30
php
如何在 Vim 编辑器中调整和自定义配色方案

Vim 编辑器功能强大，但其默认的配色方案往往不尽如人意，尤其是注释颜色为蓝色时，对眼睛极为不友好。为了提升编程体验，自定义配色方案显得尤为重要。通过合理调整颜色，不仅可以减轻视觉疲劳，还能显著提高编码效率和兴趣。 ... [详细]

蜡笔小新 2024-11-11 12:34:19
client
在Windows环境中使用SecureCRT高效连接Linux服务器

SecureCRT是一款功能强大的终端仿真软件，支持SSH1和SSH2协议，适用于在Windows环境下高效连接和管理Linux服务器。该工具不仅提供了稳定的连接性能，还具备丰富的配置选项，能够满足不同用户的需求。通过SecureCRT，用户可以轻松实现对远程Linux系统的安全访问和操作。 ... [详细]

蜡笔小新 2024-11-10 14:46:15
header
服务器部署中的安全策略实践与优化

服务器部署中的安全策略实践与优化 ... [详细]

蜡笔小新 2024-11-10 13:04:30
function
使用Shell脚本高效部署MHA高可用集群

本文介绍了如何利用Shell脚本高效地部署MHA（MySQL High Availability）高可用集群。通过详细的脚本编写和配置示例，展示了自动化部署过程中的关键步骤和注意事项。该方法不仅简化了集群的部署流程，还提高了系统的稳定性和可用性。 ... [详细]

蜡笔小新 2024-11-10 10:15:46
char
Ave V8 JavaScript 引擎：持续优化与创新

V8不仅是一款著名的八缸发动机，广泛应用于道奇Charger、宾利Continental GT和BossHoss摩托车中。自2008年以来，作为Chromium项目的一部分，V8 JavaScript引擎在性能优化和技术创新方面取得了显著进展。该引擎通过先进的编译技术和高效的垃圾回收机制，显著提升了JavaScript的执行效率，为现代Web应用提供了强大的支持。持续的优化和创新使得V8在处理复杂计算和大规模数据时表现更加出色，成为众多开发者和企业的首选。 ... [详细]

蜡笔小新 2024-11-09 15:56:40
spring
Web开发框架概览：Java与JavaScript技术及框架综述

Web开发涉及服务器端和客户端的协同工作。在服务器端，Java是一种优秀的编程语言，适用于构建各种功能模块，如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示，同时借助JavaScript增强交互性和动态效果。此外，现代Web开发还广泛使用各种框架和库，如Spring Boot、React和Vue.js，以提高开发效率和应用性能。 ... [详细]

蜡笔小新 2024-11-09 11:59:38
export
如何在任意浏览器中轻松安装并使用VSCode——Codeserver简易指南

code-server 是一款强大的工具，允许用户在任何服务器上部署 VSCode，并通过浏览器进行访问和使用。这一解决方案不仅简化了开发环境的搭建过程，还提供了高度灵活的工作方式。用户只需访问 GitHub 上的官方仓库（GitHub-coder/code-server），即可获取详细的安装和配置指南，快速启动并运行 code-server。无论是个人开发者还是团队协作，code-server 都能提供高效、便捷的代码编辑体验。 ... [详细]

蜡笔小新 2024-11-08 14:48:41
get
SSL 错误：目标主机名与备用证书主题名称不匹配

在使用 `git clone` 命令时，常见的 SSL 错误表现为：无法访问指定的 HTTPS 地址（如 `https://ip_or_domain/xxxx.git`），原因是目标主机名与备用证书主题名称不匹配。这通常是因为服务器的 SSL 证书配置不正确或客户端的证书验证设置有问题。建议检查服务器的 SSL 证书配置，确保其包含正确的主机名，并确认客户端的证书信任库已更新。此外，可以通过临时禁用 SSL 验证来排查问题，但请注意这会降低安全性。 ... [详细]

蜡笔小新 2024-11-07 22:49:18
uri
REST与RPC：选择哪种API架构风格？

在探讨REST与RPC这两种API架构风格的选择时，本文首先介绍了RPC（远程过程调用）的概念。RPC允许客户端通过网络调用远程服务器上的函数或方法，从而实现分布式系统的功能调用。相比之下，REST（Representational State Transfer）则基于资源的交互模型，通过HTTP协议进行数据传输和操作。本文将详细分析两种架构风格的特点、适用场景及其优缺点，帮助开发者根据具体需求做出合适的选择。 ... [详细]

蜡笔小新 2024-11-07 12:00:58
get
如何安全地手动移除Exchange Server 2003以确保系统稳定性和数据完整性

本文详细介绍了如何安全地手动卸载Exchange Server 2003，以确保系统的稳定性和数据的完整性。根据微软官方支持文档（https://support.microsoft.com/kb833396/zh-cn），在进行卸载操作前，需要特别注意备份重要数据，并遵循一系列严格的步骤，以避免对现有网络环境造成不利影响。此外，文章还提供了详细的故障排除指南，帮助管理员在遇到问题时能够迅速解决，确保整个卸载过程顺利进行。 ... [详细]

蜡笔小新 2024-11-06 08:13:47

开心小笨笨猪

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章