zookeeper和hadoop集群（伪分布式）

作者：00我就是我00乐乐 | 来源：互联网 | 2023-10-11 22:54

1.Zookeeper官网http:zookeeper.apache.org2.安装Zookeeper解压，配置环境变量，启动根目录下binzkServer.shstart这里是三

1.Zookeeper官网

http://zookeeper.apache.org/

2.安装Zookeeper

解压，配置环境变量，启动
根目录下bin/zkServer.sh start
这里是三台虚拟机，hadoop001，hadoop002，hadoop003
命令行客户端：
[[email protected] bin]# ./zkCli.sh （之后回车）
相关命令：

[zk: localhost:2181(CONNECTED) 2] help         
ZooKeeper -server host:port cmd args
        stat path [watch]
        set path data [version]
        ls path [watch]     （查看）
        delquota [-n|-b] path
        ls2 path [watch]
        setAcl path acl
        setquota -n|-b val path
        history 
        redo cmdno
        printwatches on|off
        delete path [version]
        sync path
        listquota path
        rmr path           （删除）
        get path [watch]
        create [-s] [-e] path data acl
        addauth scheme auth
        quit 
        getAcl path
        close 
        connect host:port
[zk: localhost:2181(CONNECTED) 3]

3.安装Hadoop

对于三台机器来说，可以先装好一台，然后使用scp -r命令把文件夹和文件传到两外两台上，如果是很多台的话，可以配置shell脚本

4.HDFS HA

4.1对于三台机器，其分别启动的进程有

hadoop001: 192.168.137.200
zk
NN(active) （对于两台NN来说，会有一个是active，另一个是standby）
DN
DFSZKFailoverController(ZKFC) 进程
JN 进程（journalnode）

hadoop002: 192.168.137.201
zk
NN(standby)
DN
DFSZKFailoverController(ZKFC) 进程
JN 进程

hadoop003: 192.168.137.202
zk
DN
JN 进程

热备（实时备份）: 元数据信息想要热备，必然要有一个公共的存储的地方（JN）

4.2这里的zkfc的作用就是选举active

zookeeper和hadoop集群（伪分布式）
注：DN向NN做的两个工作，一、向两个NN发送心跳（虽然有一个是热备，但是有成为active的可能），二、向NN发送块报告（有多少个块，块有什么问题）
zkfc报告时用的都是RPC请求（好像整个流程都是RPC）
两个NN的元数据放在JN里面（共享存储）
Hadoop2.x里standby1个，而在3.x里standby可以有多个

4.3HA:

命名服务 (CDH)：nameservice1 (hadoop001+hadoop002)（这个不关心谁是active，只是去访问命名空间，命名空间是hadoop001+hadoop002，里面有一个是active）

nameservice1在配置文件core-site.xml里面改成了mycluster

	fs.defaultFS
	hdfs://mycluster


hdfs dfs -ls hdfs://nameservice1/
    假设NN1 active：
hdfs dfs -ls hdfs://192.168.137.131:8020/  active 可以的访问， 有读写权限（这个是NN1）
hdfs dfs -ls hdfs://192.168.137.132:8020/  standby 可以， read only（这里的读写指的是对DN的操作）

5.YARN HA

所起的进程（这里的zkfc是线程）
hadoop001: 192.168.137.200
zk
RM(ZKFC 线程)（是RM里的一个子线程，ps -ef看不到）
NM

hadoop002: 192.168.137.201
zk
RM(ZKFC 线程)
NM

hadoop003:
zk
NM
zookeeper和hadoop集群（伪分布式）
相关知识：
1.DN(数据存储)和NM(计算)部署在同一台: 数据本地化减少网络消耗，让计算更加的快
2.ZKFC是线程
3.RMStateStore: 在ZK
4.元数据存储在/rmstore 在zk上

6. 集群部署

6.1配置多台互相SSH信任关系(Apache HADOOP)

https://blog.csdn.net/weixin_37677769/article/details/82903881
注：问题: A机器是中心调度机器，B机器shell脚本(某个服务的)，A调B的shell，无密码调用的的话，需要谁给谁**？
答案: A给B
根据RSA加密的流程，A的公钥给了B才行

6.2部署HDFS HA 和YARN HA

配置文件:
core-site.xml
hdfs-site.xml
yarn-site.xml
mapred-site.xml
slaves
根据配置信息执行下面的语句；
mkdir /opt/software/hadoop/tmp && chmod -R 777 /opt/software/hadoop/tmp && mkdir -p /opt/software/hadoop/data/dfs/

6.3启动（第一次启动）（不说明的都是在hadoop001上执行）

把每个zookeeper启动：zkServer.sh start   （每台机器）
先全部启动JN， hadoop-daemon.sh start journalnode  
然后格式化第一台的namenode：hadoop namenode -format 
把data/dfs/name发送到另外两台  

然后再hadoop的bin目录下执行：hdfs zkfc -formatZK
查看是否带有successful

然后启动hdfs：start-dfs.sh
启动yarn：start-yarn.sh
但是hadoop002的resourcemanager需要单独启动（hadoop001启动不了hadoop002的）
	：yarn-daemon.sh start resourcemanager

6.4关闭：

先关yarn（单独关hadoop002的），再关hdfs，最后把每个zk关掉

6.5再次启动

zkServer.sh start（每台机器，而且都配置了环境变量，不然需要在zookeeper根目录下执行：bin/zkServer.sh start）

start-dfs.sh
start-yarn.sh
yarn-daemon.sh start resourcemanager（hadoop002上执行）
$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh start historyserver

6.6监控集群

hdfs dfsadmin -report
HDFS:http://192.168.137.200:50070/
HDFS:http://192.168.137.201:50070/
ResourceManger（Active）：http://192.168.137.200:8088
ResourceManger（Standby）：http://192.168.137.201:8088/cluster/cluster
JobHistory:http://192.168.137.200:19888/jobhistory

推荐阅读

rsa
Windows 环境下安装 Git 并连接 GitHub 的详细步骤

本文详细介绍了如何在 Windows 系统中安装 Git 工具，并通过配置 SSH 密钥实现与 GitHub 的安全连接。包括下载、安装、环境配置及验证连接等关键步骤。 ... [详细]

蜡笔小新 2024-12-17 16:22:46
install
云服务器环境配置指南：Nginx、Tomcat、JDK与MySQL的安装与设置

本文详细介绍了如何在云服务器上配置Nginx、Tomcat、JDK和MySQL。涵盖从下载、安装到配置的完整步骤，帮助读者快速搭建Java Web开发环境。 ... [详细]

蜡笔小新 2024-12-21 10:18:56
cmd
window下kafka的安装以及测试

目录一、安装JDK（需要安装依赖javaJDK）二、安装Kafka三、测试参考在Windows系统上安装消息队列kafka一、安装JDKÿ ... [详细]

蜡笔小新 2024-12-16 12:01:36
text
简化报表生成：EasyReport工具的全面解析

本文详细介绍了EasyReport，一个易于使用的开源Web报表工具。该工具支持Hadoop、HBase及多种关系型数据库，能够将SQL查询结果转换为HTML表格，并提供Excel导出、图表显示和表头冻结等功能。 ... [详细]

蜡笔小新 2024-12-22 11:11:28
include
使用Nginx反向代理实现多域名端口映射

本文介绍如何通过配置本地hosts文件和Nginx反向代理，实现多个虚拟域名的端口映射，使用户可以通过标准HTTP端口80访问不同后端服务。 ... [详细]

蜡笔小新 2024-12-22 10:01:08
text
解决 SmartUpload 上传路径问题

本文详细介绍了在使用 SmartUpload 组件进行文件上传时，如何正确配置和查找文件保存路径。通过具体的代码示例和步骤说明，帮助开发者快速解决上传路径配置的问题。 ... [详细]

蜡笔小新 2024-12-22 06:44:25
io
Windows 7 环境下配置 Nginx 1.10.3 和 PHP 7.1.1 NTS (Win32 VC14 x64)

本文详细介绍了在 Windows 7 系统中配置 Nginx 1.10.3 和 PHP 7.1.1 NTS 的步骤，包括修改 PHP 配置文件、处理依赖项以及创建批处理脚本启动和停止服务。重点解释了如何解决常见的运行时错误。 ... [详细]

蜡笔小新 2024-12-21 18:54:45
text
解决C# Windows Forms客户端连接SignalR服务器时出现的错误

在尝试使用C# Windows Forms客户端通过SignalR连接到ASP.NET服务器时，遇到了内部服务器错误（500）。本文将详细探讨问题的原因及解决方案。 ... [详细]

蜡笔小新 2024-12-21 16:55:52
copy
MySQL集群搭建指南（第二部分）

本文详细介绍了如何解压并安装MySQL集群压缩包，创建用户和组，初始化数据库，配置环境变量，并启动相关服务。此外，还提供了详细的命令行操作步骤和常见问题的解决方案。 ... [详细]

蜡笔小新 2024-12-20 17:30:48
go
docker镜像重启_docker怎么启动镜像

docker镜像重启_docker怎么启动镜像dock ... [详细]

蜡笔小新 2024-12-20 16:34:52
include
Google排名优化－面向Google(Search Engine Friendly)的URL设计

Google排名优化－面向Google(Search Engine Friendly)的URL设计 ... [详细]

蜡笔小新 2024-12-19 16:16:50
include
ThinkPHP6多数据库部署指南

本文将详细介绍如何在ThinkPHP6框架中实现多数据库的部署，包括读写分离的策略，以及如何通过负载均衡和MySQL同步技术优化数据库性能。 ... [详细]

蜡笔小新 2024-12-17 18:59:28
go
Shrio03Authenticator（认证）、配置多个Realm、ModularRealmAuthenticator（认证实现类）、AuthenticationStrategy（认证策略）

1Authenticator简介1.1层次结构图1.2作用职责是验证用户帐号，是ShiroAPI中身份验证核心的入口点；接口中声明的authenticate方法就是用来实现认证逻辑 ... [详细]

蜡笔小新 2024-12-17 11:37:08
include
Django xAdmin 使用指南（第一部分）

本文介绍如何在Django项目中集成和使用xAdmin，这是一个增强版的管理界面，提供了比Django默认admin更多的功能。文中详细描述了集成步骤及配置方法。 ... [详细]

蜡笔小新 2024-12-17 10:14:08
io
BugFree 3.0.3 服务器端部署指南

本文详细介绍了如何在 Windows Server 2008 R2 64位操作系统上配置 BugFree 3.0.3 的服务器环境，包括所需软件的安装与配置步骤。 ... [详细]

蜡笔小新 2024-12-15 20:45:50

00我就是我00乐乐

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章