当前位置: 开发笔记 > 编程语言 > 正文

使用NFS实现HA（HDFSHighAvailabilityWithNFS）

作者：mobiledu2502872283 | 来源：互联网 | 2023-09-06 16:13

目的本指南概述HDFS的高可用性(HA)的特性,以及如何配置和管理HAHDFS集群,使用NFS实现NameNode共享存储本文假设读者有一个大致了解通用组件和一个HDFS集群中的节

目的

本指南概述HDFS的高可用性(HA)的特性,以及如何配置和管理HA HDFS集群,使用NFS实现NameNode共享存储

本文假设读者有一个大致了解通用组件和一个HDFS集群中的节点类型。详情请参阅HDFS架构指南。

注意&＃xff1a;QJM或者共享存储

本指南讨论如何配置使用HDFS HA使用NFS目录在活跃的和备份的NameNode之间分享edit日志&＃xff0c;对于如何通过QJM实现HA请参考上篇博客。

背景

Hadoop 2.0.0之前,NameNode是在一个HDFS集群一个单点故障(SPOF)。每个集群有一个NameNode,如果那台机器坏掉,集群作为一个整体将不可用,直到NameNode启动或在另一个单独的机器上配置的。

这种设计将影响HDFS集群的可用性在两个主要方面:

计划外的事件,如NameNode宕机导致集群不可用。

计划内的维护活动,比如NameNode机器上的软件或硬件升级导致集群停机。

HDFS高可用性特性解决了上面的问题&＃xff0c;可以通过在同一集群上配置运行两个冗余的NameNodes&＃xff0c;做到主动/被动的热备份。这将允许当一个机器宕机时&＃xff0c;快速转移到一个新的NameNode&＃xff0c;或管理员进行利用故障转移达到优雅的系统升级的目的。

架构

一个典型的HA集群&＃xff0c;NameNode会被配置在两台独立的机器上.在任何的时间上&＃xff0c;一个NameNode处于活动状态&＃xff0c;而另一个在备份状态&＃xff0c;活动状态的NameNode会响应集群中所有的客户端&＃xff0c;同时备份的只是作为一个副本&＃xff0c;保证在必要的时候提供一个快速的转移。

为了备份节点和活跃的节点状态同步&＃xff0c;当前的实现要求两个节点可以连接到一个共享设备上的目录&＃xff08;例如网络存储的网络文件系统&＃xff09;。这个架构会在以后的版本中实现。

当任何的namespace被活动状态的节点修改&＃xff0c;他会记录在共享文件夹的edit日志文件中。备份节点观察共享文件夹的edit&＃xff0c;他允许拥有自己的namespace。在执行自动迁移之前&＃xff0c;备份节点在转换为活动的节点之前确认已经读取到共享存储当中所有的edit。这将确保和迁移之前完全同步。

为了提供一个快速的转移&＃xff0c;备份NameNode要求保存着最新的block在集群当中的信息。为了能够得到这个&＃xff0c;DataNode都被配置了所有的NameNode的地址&＃xff0c;并且发送block的地址信息和心跳给两个node。

保证只有一个活跃的NameNode在集群当中是一个十分重要的一步。否则namespace状态在两个节点间不同会导致数据都是或者其他一些不正确的结果。为了确保这个,防止所谓split - brain场景,管理员至少为共享存储配置一个过滤方法。故障转移期间&＃xff0c;如果前一个活跃节点不再是活跃状态那么他将无法通过过滤&＃xff0c;过滤过程负责切断前一活跃的节点写入共享存储edits的权限。这会有效防止其他NameNode持续处于活跃状态,允许新的活动节点安全进行故障转移。

硬件资源

为了部署一个HA集群&＃xff0c;你应该按照以下准备&＃xff1a;

NameNode机器&＃xff1a;机器负责运行活动和和备份的NameNode&＃xff0c;两台机器应该有着完全一样的硬件&＃xff0c;同样的硬件应该和没有HA的硬件完全一致。

共享存储&＃xff1a;需要有一个共享文件夹并且所有的NameNode机器都有读写权限。通常这是一个远程文件&＃xff0c;支持NFS并安装挂载在每个NameNode机器。目前只有单一的共享edits文件夹被支持。因此&＃xff0c;系统的可用性被共享的edits文件夹所限制&＃xff0c;为了解决这个单点则需要edits文件夹的冗余。具体来说,多个网络的存储路径和冗余存储本身(磁盘、网络、和权力)。因为这个原因,建议共享存储服务器是一个高质量的专用NAS设备而不是一个简单的Linux服务器。
注意&＃xff1a;在一个HA集群中备份的NameNode也要坚持namespace的状态&＃xff0c;那么就没有必要去运行一个Secondary NameNode, CheckpointNode, 或者是BackupNode在集群当中&＃xff0c;事实上这么做的话有可能会是一个错误。为了允许有一个重新配置的非HA的集群可以实现HA&＃xff0c;并且实现硬件的重用&＃xff0c;所以把以前的secondary NameNode的机器作为这样一个机器。

部署

配置综述

HA的配置向后兼容允许既存的单NameNode配置在没有任何改动的情况下工作&＃xff0c;新的配置被设计成集群当中的所有节点拥有着相同的配置并且并不需要为不同的机器设置不同的配置文件。

如HDFS Federation&＃xff0c;HA集群重用nameserviceID去标示一个HDFS实例这个实例可能实际上包含了很多的HA NameNodes。另外一个新的抽象叫做NameNode ID被添置到了HA。在集群中每个不同的NameNode有着不同的NameNode ID 去标示他&＃xff0c;所有的NameNode采用同一个配置文件&＃xff0c;相关的配置参数都被用nameservice ID和NameNode ID作为后缀。

配置细节

配置HA NameNodes&＃xff0c;你必须添加几个配置选项到你的hdfs-site.xml配置文件当中。

这是这些配置的顺序并不重要&＃xff0c;但是你为dfs.nameservices和dfs.ha.namenodes.[nameservice ID] 设置的值将要决定下面步骤的key&＃xff0c;因此,你应该决定这些值在设置这些选项之前。

dfs.nameservices -新的nameservice的逻辑名字

为nameservice选择一个名字&＃xff0c;例如“mycluster”&＃xff0c;并且用这个名字的值来作为一些配置项的值&＃xff0c;这个名字是任意的。他将被用来配置在集群中作为HDFS的绝对路径组件。

注意如果你也采用HDFS系统&＃xff0c;这个设置应该也包括一个包含其他nameservices&＃xff0c;HA或者一个逗号分隔的列表

dfs.nameservices

mycluster

dfs.ha.namenodes.[nameservice ID] -为在nameservice中的每一个NameNode设置唯一标示符。

配置一个逗号分隔的 NameNode ID列表。这将是被DataNode识别为所有的NameNode。例如&＃xff0c;如果使用“mycluster”作为nameservice ID&＃xff0c;并且使用“nn1”和“nn2”作为NameNodes标示符&＃xff0c;你应该如下配置&＃xff1a;

dfs.ha.namenodes.mycluster
nn1,nn2

注意&＃xff1a;在每一个nameservice中最多只能有两个NameNode可以被配置

dfs.namenode.rpc-address.[nameservice ID].[name node ID] - 每个NameNode监听的完整正确的RPC地址
对于先前配置的NameNode ID&＃xff0c;设置全地址和IP端口的NameNode进程&＃xff0c;注意配置两个独立的配置选项例如&＃xff1a;

dfs.namenode.rpc-address.mycluster.nn1
machine1.example.com:8020

dfs.namenode.rpc-address.mycluster.nn2
machine2.example.com:8020

注意:如果您愿意&＃xff0c;您可能同样配置“servicerpc-address”设置
dfs.namenode.http-address.[nameservice ID].[name node ID] -每个NameNode监听的完整正确的HTTP地址
和上面设置rpc-address一样&＃xff0c;设置NameNode的HTTP服务&＃xff0c;例如&＃xff1a;

dfs.namenode.http-address.mycluster.nn1
machine1.example.com:50070

dfs.namenode.http-address.mycluster.nn2
machine2.example.com:50070

注意&＃xff1a;如果Hadoop的安全特征被开启&＃xff0c;你应该类似的设置https-address为每一个NameNode

dfs.namenode.shared.edits.dir - 共享存储文件夹的地址。

这里配置一个edits的远程共享目录&＃xff0c;该目录用于备份节点获取所有活跃节点造成的文件系统的更新&＃xff0c;你应该配置只配置一个这样的目录。这个目录应该可以被所有的NameNode读写&＃xff0c;这个应该是一个绝对路径&＃xff0c;例如&＃xff1a;

dfs.namenode.shared.edits.dirfile:///mnt/filer1/dfs/ha-name-dir-shared

dfs.client.failover.proxy.provider.[nameservice ID] -HDFS客户端使用的Java类与活跃的NameNode联系
配置一个类的名字用来被DFS客户端确定那个NameNode是目前活跃的那个NameNode现在正在提供响应。目前唯一的实现是已经附带的ConfiguredFailoverProxyProvider&＃xff0c;除非自己实现一个&＃xff0c;例如&＃xff1a;

dfs.client.failover.proxy.provider.mycluster
org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider

dfs.ha.fencing.methods - 在故障转移的期间,一个脚本或者java类的列表用来筛选活动NameNode。

在任何时间只有一个活动的NameNode 都是系统所需的。我们需要确认活跃的NameNode转换为备份的状态&＃xff0c;或者防止在其他NameNode转换为活跃状态之前&＃xff0c;进程被终结。为了这个目的我们需要配置至少一个过滤方法&＃xff08;fencing method&＃xff09;。

过滤方法被配置为carriage-return-separated列表&＃xff0c;会在故障转移的时候被调用&＃xff0c;直到一个过滤返回success。有两个方法比Hadoop使用&＃xff1a;
shell和sshfence。如果想自定义可以看theorg.apache.hadoop.ha.NodeFencer类。

sshfence -利用SSH连接到NameNode服务器并杀死进程

sshfence选项SSH连接到目标节点,并使用fuser杀死进程。为了这个过滤选项可以工作&＃xff0c;他需要通过通过SSH的无秘钥登陆到目标节点&＃xff0c;那么需要配置一个dfs.ha.fencing.ssh.private-key-files选项&＃xff0c;他以逗号分隔&＃xff0c;提供SSH的key文件比如&＃xff1a;

dfs.ha.fencing.methodssshfence
dfs.ha.fencing.ssh.private-key-files/home/exampleuser/.ssh/id_rsa
可以通过不标准username或者port来实现SSH&＃xff0c;我们也可以配置一个超时时间&＃xff08;毫秒&＃xff09;&＃xff0c;如果这个时间没有连接上那么会返回一个失败。例如&＃xff1a;

dfs.ha.fencing.methodssshfence([[username][:port]])

dfs.ha.fencing.ssh.connect-timeout30000
shell - 运行任何的shell命令去过滤活动的NameNode

shell过滤方法运行任何的shell命令&＃xff0c;他可以被配置例如&＃xff1a;

dfs.ha.fencing.methodsshell(/path/to/my/script.sh arg1 arg2 ...)

括号之间的字符串会被直接传递给shell脚本并且不要有任何的闭括号。

这个脚本将会带着环境建立时候所有的hadoop配置变量运行&＃xff0c;在配置的key的变量中的‘_’会被替换成&＃39;.&＃39;这种方式已经被使用在NameNode的配置中如dfs_namenode_rpc-address 是为了涵盖目标节点的RPC地址&＃xff0c;配置dfs.namenode.rpc-address.ns1.nn1也可以指定变量

另外,以下变量也可以使用

$target_host	hostname of the node to be fenced
$target_port	IPC port of the node to be fenced
$target_address	the above two, combined as host:port
$target_nameserviceid	the nameservice ID of the NN to be fenced
$target_namenodeid	the namenode ID of the NN to be fenced

这些环境变量也可以用来替换shell命令&＃xff0c;例如

dfs.ha.fencing.methodsshell(/path/to/my/script.sh --nameservice&＃61;$target_nameserviceid $target_host:$target_port)
如果返回0&＃xff0c;过滤方法并认为是成功&＃xff0c;其他则认为不成功会调用下一个过滤方法。

注意&＃xff1a;这个方式不能实现超时功能&＃xff0c;如果想实现&＃xff0c;应该通过shell脚本自己实现&＃xff08;比如&＃xff0c;通过子分支强制杀死其母分支在一定的时间后&＃xff09;。

fs.defaultFS - 当什么都没有给定的时候Hadoop文件系统客户端默认的路径前缀

可选项&＃xff0c;你可以配置一个默认的hadoop客户端路径作为新的HA的逻辑URI。如果你用“mycluster”作为 nameservice ID。这个值将作为你的HDFS路径的部分。可以通过core-site.xml文件进行如下配置。

fs.defaultFShdfs://mycluster

部署细节

在完成必要的配置之后&＃xff0c;必须进行一次初始化同步在两个HA的NameNode&＃xff0c;主要是为了元数据。

如果你建立一个新的HDFS集群你应该首先运行一下format命令&＃xff08;hdfs namenode -format&＃xff09;在其中一个NameNode上。

如果你已经进行过Format NameNode&＃xff0c;或者是正在将一个非HA的集群转换为一个HA的集群&＃xff0c;你应该拷贝你的NameNode上的元数据文件夹的内容到另一个没有被格式化的NameNode&＃xff0c;运行”hdfs namenode -bootstrapStandby“在没有格式化的NameNode上。

如果你讲一个不是HA的集群转换为一个HA的集群&＃xff0c;你应该运行”hdfs -initializeSharedEdits“命令&＃xff0c;这个会初始化edits共享文件夹使用本地NameNode的edits的文件夹中的edits数据

这是你需要启动两个HA的NameNode作为你日常的NameNode启动。

你能访问每一个NameNode的web页面通过配置的HTTP地址&＃xff0c;你应该注意到在配置的地址旁边就是HA的状态&＃xff08;‘active’或者‘standby’&＃xff09;什么时候一个HA NameNode 启动它会被初始化为备份状态。

管理命令

现在HA的NameNode被配置并且启动了&＃xff0c;你将有权限去利用命令管理你的HA HDFS集群&＃xff0c;你应该熟悉你的所有的”hdfs haadmin“命令。运行这个命令没有任何的参数你会看见一下内容&＃xff1a;

Usage: DFSHAAdmin [-ns ][-transitionToActive ][-transitionToStandby ][-failover [--forcefence] [--forceactive] ][-getServiceState ][-checkHealth ][-help ]

这个描述了常用的命令&＃xff0c;每个子命令的详细信息你应该运行”hdfs haadmin -help >“

transitionToActive and transitionToStandby - 切换NameNode的状态&＃xff08;Active或者Standby&＃xff09;

这些子命令会使NameNode分别转换状态&＃xff0c;这种方式不会去调用人任何的过滤所以很少会被使用&＃xff0c;想法人们应该选择“hdfs haadmin -failover”子命令。

failover - 启动两个NameNode之间的故障迁移

这个子命令会从第一个NameNode迁移到第二个&＃xff0c;如果第一个NameNode处于备用状态,这个命令只是没有错误的转换第二个节点到活动状态。如果第一个NameNode处于活跃状态,试图将优雅地转换到备用状态。如果失败,过滤方法(如由dfs.ha.fencing.methods配置)将尝试过滤直到成功。只有在这个过程之后第二个NameNode会转换为活动状态&＃xff0c;如果没有过滤方法成功&＃xff0c;第二个nameNode将不会活动并返回一个错误

getServiceState -判定NameNode的状态

连接到NameNode&＃xff0c;去判断现在的状态打印“standby”或者“active”去标准的输出。这个子命令可以被corn jobs或者是监控脚本使用&＃xff0c;为了针对不同专题的NameNode采用不同的行为

checkHealth -检查NameNode的健康

连接NameNode检查健康&＃xff0c;NameNode能够执行一些诊断,包括检查如果内部服务正在运行。如果返回0表明NameNode健康&＃xff0c;否则返回非0.可以使用此命令用于监测目的。

注意&＃xff1a;这个功能实现的不完整&＃xff0c;目前除了NameNode完全的关闭&＃xff0c;其他全部返回成功。

自动迁移

介绍

上面的小节介绍的如何手动的配置迁移&＃xff0c;在那种末实现即使活动的节点已经失败了&＃xff0c;系统也不会自动的迁移到备用的节点&＃xff0c;这个小节描述如何自动的配置和部署故障转移

组件

自动的故障转移添加了两周新的组件到HDFS部署中&＃xff1a;一个是ZooKeeper quorum一个是the ZKFailoverController process&＃xff08;缩写是ZKFC&＃xff09;。

Apache ZooKeeper是一个通过少量的协作的数据&＃xff0c;通知客户端的变化&＃xff0c;并且监控客户端失败的高可用协调系统。实现HDFS的自动故障转移需要ZooKeeper做下面的事情&＃xff1a;

失败保护-集群当中每一个NameNode机器都会在ZooKeeper维护一个持久的session&＃xff0c;如果机器宕机&＃xff0c;那么就会session过期&＃xff0c;故障迁移会被触发。

活动的NameNode选择-ZooKeeper提供了一个简单的机制专门用来选择一个活跃的节点。如果现在的活跃的NameNode宕机其他的节点可以向ZooKeeper申请排他所成为下一个active的节点。

ZKFailoverController (ZKFC)是一个新的组件他是一个ZooKeeper的客户端也是用来监控和管理NameNode的状态的。每一个机器运行一个NameNode同时也要运行一个ZKFC&＃xff0c;ZKFC是为了&＃xff1a;

健康监控-ZKFC周期性的连接本地的NameNode运行一个健康检查命令&＃xff0c;只要NameNode予以相应则ZKFC认为是健康的&＃xff0c;如果节点宕机&＃xff0c;冻结或者进入一个不健康的状态&＃xff0c;那么健康监控器就会标示他是不健康的

ZooKeeper session管理-当本地NameNode是健康的时候&＃xff0c;ZKFC会在ZooKeeper中保持一个开着的session。如果本地的NameNode是活跃的&＃xff0c;他也会保持一个特殊的所在znode当中&＃xff0c;这个锁用来使得ZooKeeper支持"ephemeral"节点&＃xff0c;如果session超期那么这个锁会被删除。

ZooKeeper-based选择 - 如果本地的NameNode是健康的&＃xff0c;ZKFC没有发现其他节点去持有锁那么他会申请锁。如果他成功了&＃xff0c;它已经赢得了选举,并负责运行故障转移使其本地NameNode活跃。迁移过程和手动迁移类似&＃xff1a;首先执行必要的过滤&＃xff0c;然后将本地的NameNode转换为活动的&＃xff0c;

更多的细节请查看自动迁移的设计HADOOP的JIRA的HDFS-2185.

部署ZooKeeper

一个部署中&＃xff0c;ZooKeeper的守护线程被配置到3或者5个节点&＃xff0c;因为ZooKeeper占用的资源比较轻量级&＃xff0c;他可以和HDFS的NameNode和备份Node部署在同一硬件环境上。很多运行商部署选择部署第三个ZooKeeper进程和YARN的RM在同一个节点上&＃xff0c;建议配置ZooKeeper节点去储存他们的数据在HDFS元数据分离的硬盘上为了更好地性能。

ZooKeeper 的安装不包括在本文档中&＃xff0c;我们假设你已经建立了ZooKeeper集群运行了3个或3个以上的节点并且验证他可以被ZK CLI连接并且正确的操作。

开始之前

在你开始配置自动转移之前&＃xff0c;你应该关闭你的集群&＃xff0c;目前不能在集群运行当中实现手动到自动的转换

配置

配置自动故障转移要求添加两个新的配置到hdfs-site.xml&＃xff0c;如下&＃xff1a;

dfs.ha.automatic-failover.enabledtrue
这个配置需要添加到core-site.xml文件中&＃xff0c;如下&＃xff1a;

ha.zookeeper.quorumzk1.example.com:2181,zk2.example.com:2181,zk3.example.com:2181
这是一个主机端口的匹配在ZooKeeper 服务中。
如先前的文档中关于参数的描述&＃xff0c;这些设置可能需要被配置先前的nameservice并用nameservice ID作为后缀&＃xff0c;比如在集群中&＃xff0c;你可能期望自动故障转移只是发生在一个nameservice上那么可以设置dfs.ha.automatic-failover.enabled.my-nameservice-id.

还有一些参数也可以设置并且对于自动迁移或一些影响&＃xff0c;但是他们对于绝大多数的安装来说不是必要的。详细内容请参考配置主键key文档。

在ZooKeeper初始化HA状态

在配置的主键被添加之后&＃xff0c;下一步就是在ZooKeeper中初始化需要的状态&＃xff0c;你可以在一个NameNode的主机上运行下面的命令&＃xff1a;

$ hdfs zkfc -formatZK 他会在ZooKeeper 创建一个Znode代替用来为自动迁移储存数据。

使用start-dfs.sh启动集群

因为自动迁移被配置在文件中&＃xff0c;start-dfs.sh脚本会自动启动一个ZKFC守护线程在NameNode运行的机器上&＃xff0c;当ZKFC启动时&＃xff0c;他会自动选择一个NameNode作为活动的。

手动启动集群

如果你手动管理你的集群中的服务&＃xff0c;你需要手动的为每一个NameNode的机器去启动zkfc&＃xff0c;你可以运行下面的命令&＃xff1a;

$ hadoop-daemon.sh start zkfc 安全的进入ZooKeeper

如果你运行的是一个安全的集群&＃xff0c;你会希望在ZooKeeper储存的信息也是安全的这会防止恶意的客户端改变ZooKeeper的元数据或者触发错误的故障转移。

为了实现安全的信息&＃xff0c;首先需要在core-site.xml添加下面的内容&＃xff1a;

ha.zookeeper.auth&＃64;/path/to/zk-auth.txtha.zookeeper.acl&＃64;/path/to/zk-acl.txt
请注意‘&＃64;’字符这个配置不是指向内部&＃xff0c;而是指向磁盘上的文件。

第一个配置指定了ZooKeeper证书文件列表&＃xff0c;和ZK CLI使用相同的格式&＃xff0c;例如你可以这样声明&＃xff1a;

digest:hdfs-zkfcs:mypassword --hdfs-zkfcs是一个ZooKeeper用户名&＃xff0c;mypassword是一个密码

ZooKeeper ACL验证这个证书&＃xff1a;

$ java -cp $ZK_HOME/lib/*:$ZK_HOME/zookeeper-3.4.2.jar org.apache.zookeeper.server.auth.DigestAuthenticationProvider hdfs-zkfcs:mypassword
output: hdfs-zkfcs:mypassword->hdfs-zkfcs:P/OQvnYyU/nF/mGYvB/xurX8dYs&＃61; 复制粘贴->后面的字符串到zk-acls.tx&＃xff0c;“digest:”作为前缀&＃xff0c;比如&＃xff1a;

digest:hdfs-zkfcs:vlUvLnd8MlacsE80rDuu6ONESbM&＃61;:rwcda 为了这些ACL起作用&＃xff0c;你应该运行zkfc -format命令如上描述。

这样做之后,你可以验证的acl ZK CLI如下:

[zk: localhost:2181(CONNECTED) 1] getAcl /hadoop-ha
&＃39;digest,&＃39;hdfs-zkfcs:vlUvLnd8MlacsE80rDuu6ONESbM&＃61;
: cdrwa 验证自动迁移

一旦自动迁移被建立&＃xff0c;你应该测试一下他。这么做&＃xff0c;首先定位活跃的NameNode,你可以通过访问NameNode的web页面查看哪个node是活跃的在首页上你能看见HA的状态。

一旦你找到活跃的NameNode&＃xff0c;你可以在这个节点上造一些错误。例如&＃xff0c;你可能使用kill -9 模拟JVM崩溃。或者重启机器拔掉网线模拟各种的异常。触发中断后&＃xff0c;你希望几秒后其他的NameNode自动的编程活动的。自动转移的时间你可以通过一个配置ha.zookeeper.session-timeout.ms来设定&＃xff0c;默认是5秒。

如果这个测试没有成功&＃xff0c;你可能是一些地方配置错了&＃xff0c;你需要检查zkfc守护进程的日志以及NameNode守护进程进一步诊断问题。

自动迁移FAQ

开始ZKFC和NameNode守护进程的启动顺序很重要吗&＃xff1f;

不&＃xff0c;任何定节点上你可能会在启动ZKFC之前或之后启动相应的NameNode。

额外的监控应该放到什么地方&＃xff1f;

你应该为每一个NameNode的主机添加一个监控确定ZKFC运行。如果ZooKeeper失败&＃xff0c;比如,ZKFC意外退出,应该重新启动,确保系统自动故障转移。

此外&＃xff0c;你应该监控ZooKeeper quorum的每一个服务器&＃xff0c;如果ZooKeeper关闭了&＃xff0c;那么自动迁移不能工作

如果ZooKeeper关闭了怎么办&＃xff1f;

如果ZooKeeper 机器崩溃&＃xff0c;自动迁移将不会在工作&＃xff0c;但是HDFS不会有影响。当ZooKeeper 重新启动&＃xff0c;HDFS会重新连上。

我可以指定NameNode的优先级吗&＃xff1f;

不。目前这个不被支持。

当自动转移被配置如何进行手工转移&＃xff1f;

即使配置了自动转移&＃xff0c;你也可以使用手动转移

BookKeeper作为共享存储&＃xff08;扩展&＃xff09;

BookKeeper是NameNode共享存储的一个选择。BookKeeper通过早多个高性能存储节点之间复制edit的日志实现了一个高可用。edit的日志可以通过高性能的节点实现高性能。过滤方法也可以被支持&＃xff0c;例如BookKeeper 不允许同时有两个对象可以写入同一个edit日志。

BookKeeper的元数据被储存在ZooKeeper中。在HA架构中&＃xff0c;ZKFC需要Zookeeper集群支持&＃xff0c;这个集群同样也为BookKeeper元数据服务。

更多的细节可以参考BookKeeper文档。

BookKeeperJournalManager 是一个HDFS JournalManager的实现接口&＃xff0c;运行用户自定义实现日志写入HDFS的NameNode当中.

BookKeeper Journal Manager

使用BookKeeperJournalManager应该添加下面的内容到hdfs-site.xml

dfs.namenode.shared.edits.dirbookkeeper://zk1:2181;zk2:2181;zk3:2181/hdfsjournaldfs.namenode.edits.journal-plugin.bookkeeperorg.apache.hadoop.contrib.bkjournal.BookKeeperJournalManager bookkeeper 的URI形式是bookkeeper://[zkEnsemble]/[rootZnode] [zookkeeper ensemble] 是一个分号分隔的列表&＃xff0c;与zookeeper 的host:port 匹配。例如上面是3个服务zk1, zk2 & zk3&＃xff0c;每一个都是监听2181端口。

[root znode]是zookeeper的znode的路径用来储存edit日志信息

必须在NameNode的类路径下为ournal-plugin指定类。会解释如何使用journal manager生成一个jar文件&＃xff0c;并把它引入classpath下。

更多的配置选项.

dfs.namenode.bookkeeperjournal.output-buffer-size - bookkeeper journal流缓冲的字节数。默认是1024

dfs.namenode.bookkeeperjournal.output-buffer-size1024 dfs.namenode.bookkeeperjournal.ensemble-size - bookkeeper服务在edit日志的数量&＃xff0c;这个数量是可以写入edit日志的服务的数量&＃xff0c;默认是3

dfs.namenode.bookkeeperjournal.ensemble-size3
dfs.namenode.bookkeeperjournal.quorum-size - bookkeeper 可以写入的数量。这个数量用来认定写入。默认是2

dfs.namenode.bookkeeperjournal.quorum-size2 dfs.namenode.bookkeeperjournal.digestPw - 当创建edit日志段的时候需要的密码

dfs.namenode.bookkeeperjournal.digestPwmyPassword dfs.namenode.bookkeeperjournal.zk.session.timeout - Zookeeper 客户端从BookKeeper Journal Manager的session超时时间。Hadoop要求这个值应该小于ZKFC 的session超时时间默认为3000

dfs.namenode.bookkeeperjournal.zk.session.timeout3000 构建BookKeeper Journal Manager plugin jar
为BK journal生成一个分布的包应该这么做&＃xff1a;

$ mvn clean package -Pdist

这会生成一个BookKeeperJournalManager的jar&＃xff0c;all the dependencies needed by the journal manager, hadoop-hdfs/src/contrib/bkjournal/target/hadoop-hdfs-bkjournal-VERSION.jar

注意&＃xff1a;-Pdist的部分很重要&＃xff0c;否则将无法形成一个jar的包。这个依赖包含进jar路径避免与其他的NameNode依赖冲突

放置BookKeeperJournalManager到NameNode classpath

运行一个HDFSNameNode并使用BookKeeper&＃xff0c;需要拷贝bkjournal jar到hdfs的lib目录。在HDFS的文件系统中&＃xff0c;他应该是

$HADOOP_HDFS_HOME/share/hadoop/hdfs/lib/

当前的限制

1&＃xff09;NameNode格式自动命令不会格式化BookKeeper数据。我们不得不手动清空BookKeeper集群数据&＃xff0c;在Zookeeper创建/ledgers/available路径

---- $ zkCli.sh create /ledgers 0 $ zkCli.sh 创建 /ledgers/available 0

注意&＃xff1a;bookkeeper://zk1:2181;zk2:2181;zk3:2181/hdfsjournal最后部分的/hdfsjournal指明在zookeeper的znode&＃xff0c;储存元数据的储存路径&＃xff0c;管理员可以设置喜欢的值。

2&＃xff09;BookKeeper不支持SASL和SSL连接

3&＃xff09;自动恢复存储节点的失败。只能参考下面的文章&＃xff08;BOOKKEEPER-237&＃xff09;&＃xff0c;手动恢复数据。

hdfs

架构

日志

hadoop

文件

split

安全

服务器

linux

写下你的评论吧 !

吐个槽吧,看都看了

会员登录 | 用户注册

推荐阅读

web
Python高级之网络编程及TCP/IP协议簇的OSI七层模型介绍

本文介绍了Python高级网络编程及TCP/IP协议簇的OSI七层模型。首先简单介绍了七层模型的各层及其封装解封装过程。然后讨论了程序开发中涉及到的网络通信内容，主要包括TCP协议、UDP协议和IPV4协议。最后还介绍了socket编程、聊天socket实现、远程执行命令、上传文件、socketserver及其源码分析等相关内容。 ... [详细]

蜡笔小新   2023-12-14 18:16:27

hash
Java工具类库Hutool介绍及功能概述

本文介绍了Java工具类库Hutool，该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装，并提供了各种Util工具类。同时，还介绍了Hutool的组件，包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码，提高开发效率。 ... [详细]

蜡笔小新   2023-12-14 14:29:36

cmd
Centos7.6安装Gitlab教程及注意事项

本文介绍了在Centos7.6系统下安装Gitlab的详细教程，并提供了一些注意事项。教程包括查看系统版本、安装必要的软件包、配置防火墙等步骤。同时，还强调了使用阿里云服务器时的特殊配置需求，以及建议至少4GB的可用RAM来运行GitLab。 ... [详细]

蜡笔小新   2023-12-14 14:01:06

cmd
Metasploit攻击渗透实践

本文介绍了Metasploit攻击渗透实践的内容和要求，包括主动攻击、针对浏览器和客户端的攻击，以及成功应用辅助模块的实践过程。其中涉及使用Hydra在不知道密码的情况下攻击metsploit2靶机获取密码，以及攻击浏览器中的tomcat服务的具体步骤。同时还讲解了爆破密码的方法和设置攻击目标主机的相关参数。 ... [详细]

蜡笔小新   2023-12-14 12:14:09

java
解决Mac上无法使用localhost连接mysql的问题

本文介绍了在Mac上搭建php环境后无法使用localhost连接mysql的问题，并通过将localhost替换为127.0.0.1或本机IP解决了该问题。文章解释了localhost和127.0.0.1的区别，指出了使用socket方式连接导致连接失败的原因。此外，还提供了相关链接供读者深入了解。 ... [详细]

蜡笔小新   2023-12-13 17:48:58

web
Web学习历程记录（七）——Tomcat基本概念和配置

本文介绍了Web学习历程记录中关于Tomcat的基本概念和配置。首先解释了Web静态Web资源和动态Web资源的概念，以及C/S架构和B/S架构的区别。然后介绍了常见的Web服务器，包括Weblogic、WebSphere和Tomcat。接着详细讲解了Tomcat的虚拟主机、web应用和虚拟路径映射的概念和配置过程。最后简要介绍了http协议的作用。本文内容详实，适合初学者了解Tomcat的基础知识。 ... [详细]

蜡笔小新   2023-12-13 17:08:24

web
ABAP开发发送邮件程序的配置和代码整理

本文介绍了通过ABAP开发往外网发邮件的需求，并提供了配置和代码整理的资料。其中包括了配置SAP邮件服务器的步骤和ABAP写发送邮件代码的过程。通过RZ10配置参数和icm/server_port_1的设定，可以实现向Sap User和外部邮件发送邮件的功能。希望对需要的开发人员有帮助。摘要长度：184字。 ... [详细]

蜡笔小新   2023-12-13 15:50:17

web
如何在服务器主机上实现文件共享的方法和工具

本文介绍了在服务器主机上实现文件共享的方法和工具，包括Linux主机和Windows主机的文件传输方式，Web运维和FTP/SFTP客户端运维两种方式，以及使用WinSCP工具将文件上传至Linux云服务器的操作方法。此外，还介绍了在迁移过程中需要安装迁移Agent并输入目的端服务器所在华为云的AK/SK，以及主机迁移服务会收集的源端服务器信息。 ... [详细]

蜡笔小新   2023-12-13 13:23:48

cmd
Linux如何安装Mongodb的详细步骤和注意事项

本文介绍了Linux如何安装Mongodb的详细步骤和注意事项，同时介绍了Mongodb的特点和优势。Mongodb是一个开源的数据库，适用于各种规模的企业和各类应用程序。它具有灵活的数据模式和高性能的数据读写操作，能够提高企业的敏捷性和可扩展性。文章还提供了Mongodb的下载安装包地址。 ... [详细]

蜡笔小新   2023-12-12 21:54:15

post
基于PgpoolII的PostgreSQL集群安装与配置教程

本文介绍了基于PgpoolII的PostgreSQL集群的安装与配置教程。Pgpool-II是一个位于PostgreSQL服务器和PostgreSQL数据库客户端之间的中间件，提供了连接池、复制、负载均衡、缓存、看门狗、限制链接等功能，可以用于搭建高可用的PostgreSQL集群。文章详细介绍了通过yum安装Pgpool-II的步骤，并提供了相关的官方参考地址。 ... [详细]

蜡笔小新   2023-12-14 19:10:25

const
android listview OnItemClickListener失效原因

最近在做listview时发现OnItemClickListener失效的问题，经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效，还会导致单击后listview每个item的背景改变，使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况，并提供了解决方法。 ... [详细]

蜡笔小新   2023-12-14 14:25:50

web
如何使用Java获取服务器硬件信息和磁盘负载率

本文介绍了使用Java编程语言获取服务器硬件信息和磁盘负载率的方法。首先在远程服务器上搭建一个支持服务端语言的HTTP服务，并获取服务器的磁盘信息，并将结果输出。然后在本地使用JS编写一个AJAX脚本，远程请求服务端的程序，得到结果并展示给用户。其中还介绍了如何提取硬盘序列号的方法。 ... [详细]

蜡笔小新   2023-12-14 13:56:20

web
t-io 2.0.0发布-法网天眼第一版的回顾和更新说明

本文回顾了t-io 1.x版本的工程结构和性能数据，并介绍了t-io在码云上的成绩和用户反馈。同时，还提到了@openSeLi同学发布的t-io 30W长连接并发压力测试报告。最后，详细介绍了t-io 2.0.0版本的更新内容，包括更简洁的使用方式和内置的httpsession功能。 ... [详细]

蜡笔小新   2023-12-14 10:17:48

web
图解redis的持久化存储机制RDB和AOF的原理和优缺点

本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件，恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘，实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点，帮助读者更好地理解redis的持久化存储策略。 ... [详细]

蜡笔小新   2023-12-13 20:24:11

go
Ubuntu 9.04中安装谷歌Chromium浏览器及使用体验[图文]

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新   2023-12-13 13:30:30

mobiledu2502872283

这个家伙很懒，什么也没留下！

Tags | 热门标签

controller

go

byte

utf-8

java

subset

uml

blob

const

bit

post

case

eval

audio

metadata

cmd

cSharp

hash

httpclient

httprequest

vba

bytecode

ascii

loops

string

netty

dockerfile

cPlusPlus

version

web

RankList | 热门文章

1J2EE三层架构简介

2微服务相关基础知识学习

3“源”来是你Vol.32 | 知名图数据平台 Neo4j 招聘中国社区经理

4Serverless 终结 Kubernetes？

5svn服务器会用到哪些端口_综合布线会用到哪些产品

6php.ini 中文版(php5.2)

7c++之计数排序算法

8尚硅谷Java视频_JUC(java.util.concurrent)视频教程免费下载

9我的世界服务器自定义怪物怎么用,我的世界自定义怪物属性的方法

10《遣愤》翻译原文赏析诗人唐杜甫

11webpack中插件的钩子函数如何使用？

12《追和戊寅岁上元》翻译原文赏析诗人宋苏轼

13电脑上的文件和手机怎么设置共享文件？

14Win10系统语言“删除”按钮灰色无法点击该怎么办?

15《前出塞九首》翻译原文赏析诗人唐杜甫