当前位置: 开发笔记 > 编程语言 > 正文

Hadoop2.7.3+Hbase1.1.9集群搭建

作者：zjy135781012 | 来源：互联网 | 2023-08-10 10:01

一、1. 搭建三个Ubuntu系统(master,node1,node2节点都要操作)1.修改主机名：gedit etchostname 改为masternode1node2

一、

1. 搭建三个Ubuntu系统

(master,node1,node2节点都要操作)

1.修改主机名：

gedit /etc/hostname 改为master/node1/node2

2.将普通用户改为root用户

执行sudo passwd root，执行后会提示你设置密码，请自行设置需要的密码，切记一定要记住设置的密码，如下图所示：

Hadoop 2.7.3+Hbase1.1.9 集群搭建

此步为额外步骤，可以不做（目的是使用root用户登录，方便之后的操作）输入以下命令cd /usr/share/lightdm/lightdm.conf.d/ 进入目录/usr/share/lightdm/lightdm.conf.d下，然后执行命令sudo gedit 50-unity-greeter.conf（注执行完该命令会弹出一个文本编辑窗口，见下图），对50-unity-greeter.conf文件进行编辑

在打开的文本编辑窗口中，添加以下信息，来设置登陆时可以选择的用户登录，如下图所示：

user-session=ubuntu
greeter-show-manual-login=true

all-guest=false

二、

1. 配置ip

(master,node1,node2节点都要操作)

gedit /etc/hosts 编辑为：

Hadoop 2.7.3+Hbase1.1.9 集群搭建

重启

三、

1. jdk，hadoop配置：

在home下创建一个文件夹hadoop：用于存放jdk，hadoop,hbase：

在hadoop目录下安装jdk：apt-get install jdk8

在hadoop下解压hadoop-2.7.3.tar.gz：tar -zxvf hadoop-2.7.3.tar.gz

对hadoop进行配置：

编辑hadoop-env.sh(修改JAVA_HOME的配置)

sudo gedit hadoop-env.sh

export JAVA_HOME=/home/hadoop/tools/jdk7

export HADOOP_PID_DIR=/home/hadoop/pids

编辑yarn-env.sh，在底部增加

export JAVA_HOME=/home/hadoop/tools/jdk7

export YARN_PID_DIR=/home/hadoop/pids

编辑slaves文件，在底部增加

master

slave1

slave2

编辑core-site.xml

fs.defaultFS

hdfs://master:9000

hadoop.tmp.dir

/home/hadoop/temp

编辑hdfs-site.xml

dfs.replication

该数值为slave节点数 -->

dfs.namenode.name.dir

file:/home/hadoop/dfs/name

true

dfs.datanode.data.dir

file:/home/hadoop/dfs/data

编辑yarn-site.xml

yarn.nodemanager.aux-services

mapreduce_shuffle

yarn.nodemanager.aux-services.mapreduce.shuffle.class

org.apache.hadoop.mapred.ShuffleHandler

yarn.resourcemanager.hostname

master

编辑mapred-site.xml

默认没有该文件

mapreduce.framework.name

yarn

true

配置用户环境变量

sudo gedit~/.bashrc

在末尾加上:

#Hadoop

exportHADOOP_PREFIX="/home/hadoop/tools/hadoop2.6"

exportPATH=$PATH:$HADOOP_PREFIX/bin:$HADOOP_PREFIX/sbin

exportHADOOP_COMMON_HOME=${HADOOP_PREFIX}

exportHADOOP_HDFS_HOME=${HADOOP_PREFIX}

exportHADOOP_MAPRED_HOME=${HADOOP_PREFIX}

exportHADOOP_YARN_HOME=${HADOOP_PREFIX}

#setjava environment

exportJAVA_HOME=/home/hadoop/tools/jdk7

exportJRE_HOME=/home/hadoop/tools/jdk7/jre

exportMAHOUT_HOME=/home/hadoop/tools/mahout-distribution-0.9

exportMAVEN_HOME=/home/hadoop/tools/maven3.2

exportPATH=$JAVA_HOME/bin:$MAVEN_HOME/bin:$MAHOUT_HOME/bin:$PATH

exportCLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

exportSCALA_HOME=/home/hadoop/tools/scala2.10

exportPATH=.:$PATH:$SCALA_HOME/bin

exportSPARK_HOME=/home/hadoop/tools/spark1.4

exportPATH=.:$PATH:$SPARK_HOME/bin:$SPARK_HOME:sbin

exportHBASE_HOME=/home/hadoop/tools/hbase1

exportPATH=.:$PATH:$HBASE_HOME/bin

使用source更新下.bashrc文件：source ~/.bashrc

hbase配置：（master）

在hadoop目录下解压

编辑hbase-env.sh，在底部增加

#The java implementation to use. Java1.7+ required.

exportJAVA_HOME=/home/hadoop/tools/jdk7

exportHBASE_MANAGES_ZK=true

export HBASE_PID_DIR=/home/hadoop/pids

编辑regionservers文件，在底部增加

master

slave1

slave2

Hadoop 2.7.3+Hbase1.1.9 集群搭建

编辑hbase-site.sh，在底部增加

hbase.rootdir

hdfs://master:9000/hbase

hbase.cluster.distributed

true

hbase.master

master:60010

hbase.zookeeper.quorum

master,node1,node2

zookeeper.znode.parent

/hbase

关闭防火墙

sudo ufw disable (关闭防火墙重启虚拟机生效)

安装SSH服务（建立无密码登陆本机和其他节点，各节点之间传送文件）

安装openssh-server;(node1,node2,master)

sudo apt-getinstall ssh

创建ssh-key，这里我们采用rsa方式;(node1,node2,master)

ssh-****** -trsa

（注：回车后会在~/.ssh/下生成两个文件：id_rsa和id_rsa.pub这两个文件是成对出现的）

(master)进入~/.ssh/目录下，将id_rsa.pub追加到authorized_keys授权文件中，开始是没有authorized_keys文件的;

cd ~/.ssh

cat id_rsa.pub>> authorized_keys

(node1,node2):将生成的 id_rsa.pub追加的master节点的authorized_keys下，命令如下：

scp ~/.ssh/ id_rsa.pub [email protected]:/home/a.txt将id_rsa.pub 的内容拷贝到a.txt中

cat /home/a.txt >> authorized_keys 再将a.txt的内容追加到 authorized_keys中

注：若scp权限不够，修改/etc/ssh/sshd_config 将PermitRootLogin ***改为PermitRootLogin yes

(master)scp~/.ssh/authorized_keys [email protected]:~/.ssh/

scp~/.ssh/authorized_keys [email protected]:~/.ssh/

3. 登录其他节点;

ssh node1

ssh node2

ssh master

master节点下使用ssh node1可进入node1

Hadoop 2.7.3+Hbase1.1.9 集群搭建

若不需要密码直接就可以进入，为成功

( 注：当ssh远程登录到其它机器后，现在你控制的是远程的机器，需要执行退出命令才能重新控制本地主机。退出命令;exit)

ssh 必须安装并且保证sshd一直运行，以便用Hadoop 脚本管理远端Hadoop守护进程。

附ssh部分命令：

重启SSH

/etc/init.d/ssh restart

确认sshserver是否启动

ps -e | grep ssh

Hadoop 2.7.3+Hbase1.1.9 集群搭建

如果只有ssh-agent那ssh-server还没有启动，需要/etc/init.d/ssh start，如果看到sshd那说明ssh-server已经启动了。

1. 将hadoop传送给node1，node2节点：（在master上操作）

scp -r /home/hadoop [email protected]:/home/

启动hadoop(master)

1. 1.第一次启动需要在master 执行format

2. bin/hdfs namenode -format

Hadoop 2.7.3+Hbase1.1.9 集群搭建

2.在master启动服务

sbin/start-all.sh

Hadoop 2.7.3+Hbase1.1.9 集群搭建

3.在master 验证启动进程：

Hadoop 2.7.3+Hbase1.1.9 集群搭建

4.在slave 验证启动进程：

5.打开浏览器输入：http:// master:8088 可查看相关的应用运行情况。

Hadoop 2.7.3+Hbase1.1.9 集群搭建

6. 打开浏览器输入：http:// master:50070 可查看hdfs目录

Hadoop 2.7.3+Hbase1.1.9 集群搭建

7.测试

bin/hdfs dfs -ls /

bin/hdfs dfs -mkdir /user

bin/hdfs dfs -mkdir -p /user/micmiu/wordcount/in

创建三个文件（内容相同）

micmiu-01.txt：

micmiu-02.txt：

micmiu-03.txt：

上传三个文件

bin/hdfs dfs -put micmiu*.txt /user/micmiu/wordcount/in

启动wordcount

bin/hadoop jar ../share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jarwordcount /user/micmiu/wordcount/in /user/micmiu/wordcount/out

Hadoop 2.7.3+Hbase1.1.9 集群搭建

查看结果输出out文件

bin/hdfsdfs -cat /user/micmiu/wordcount/out/part-r-00000

Hadoop 2.7.3+Hbase1.1.9 集群搭建

启动hbase（master）

在浏览器中输入http://192.168.16.128:16030/rs-status，如图则配置成功：

Hadoop 2.7.3+Hbase1.1.9 集群搭建

1. 附录：遇到的部分问题总结

1. slave节点的DataNode自动关闭问题

原因:Namenode上namespaceID与datanode上namespaceID不一致。

每次namenodeformat会重新创建一个namenodeId,而tmp/dfs/data下包含了上次format下的id,namenode format清空了namenode下的数据,但是没有清空datanode下的数据,所以造成namenode节点上的namespaceID与datanode节点上的namespaceID不一致。启动失败。

解决方案：

(1)停掉集群服务

　　(2)在出问题的datanode节点上删除data目录，data目录即是在hdfs-site.xml文件中配置的dfs.data.dir目录，本机器上那个是/var/lib/hadoop-0.20/cache/hdfs/dfs/data/

　　(3)格式化namenode.

(4)重新启动集群。

2. NameNode结点不能启动

jps查看结点启动情况没有NameNode结点

一种原因是在core-site.xml中指定了如下配置：

    hadoop.tmp.dir
    /tmp/hadoop/hadoop-${user.name}

但是tmp会在启动的时候清空，而dfs的数据就会变得不一致，导致启动失败，可以重新更改位置：

    hadoop.tmp.dir
    /var/hadoop/hadoop-${user.name}

然后执行: hadoop namenode -format 命令（由于namenode数据存储目录变更，namenode需要重新格式化）

重启后即可。

3. 运行wordcount时权限不足

解决方案：

在配置hdfs-site.xml中增加配置代码：

dfs.permissions.enabled

false

4. 解除安全模式

解决方案：

hadoop dfsadmin -safemode leave

5.ssh免密不成功：

首先要修改主机和ssh连接到的远程机的配置文件：

vi /etc/ssh/sshd_config

（要确保这些字符前无注释符号“#”）

RSAAuthentication yes

PubkeyAuthentication yes

AuthorizedKeysFile .ssh/authorized_keys

PasswordAuthentication yes

PeimitEmptyPasswords yes

然后查看各节点的authorized_keys是否包含三个节点的私钥信息，如果缺失，重新传送

6.环境配置文件添加错误，导致无法进入root，一些操作命令不能执行，解决办法

输入命令export PATH=/bin:/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin

之后gedit命令就可以使用了

将错的文件改回来就可以了

注：一个用户下对应着一个自己的环境配置文件，

推荐阅读

text
DVWA学习笔记系列：深入理解CSRF攻击机制

DVWA学习笔记系列：深入理解CSRF攻击机制 ... [详细]

蜡笔小新 2024-11-11 13:19:51
text
深入解析Struts、Spring与Hibernate三大框架的面试要点与技巧

深入解析Struts、Spring与Hibernate三大框架的面试要点与技巧 ... [详细]

蜡笔小新 2024-11-11 13:09:30
text
Vue 页面状态管理与跨页面数据传递的有效策略

在 Vue 应用开发中，页面状态管理和跨页面数据传递是常见需求。本文将详细介绍 Vue Router 提供的两种有效方式，帮助开发者高效地实现页面间的数据交互与状态同步，同时分享一些最佳实践和注意事项。 ... [详细]

蜡笔小新 2024-11-08 12:45:14
int
Python 实战：异步爬虫（协程技术）与分布式爬虫（多进程应用）深入解析

本文将深入探讨 Python 异步爬虫和分布式爬虫的技术细节，重点介绍协程技术和多进程应用在爬虫开发中的实际应用。通过对比多进程和协程的工作原理，帮助读者理解两者在性能和资源利用上的差异，从而在实际项目中做出更合适的选择。文章还将结合具体案例，展示如何高效地实现异步和分布式爬虫，以提升数据抓取的效率和稳定性。 ... [详细]

蜡笔小新 2024-11-05 14:12:56
int
HarmonyOS 2.0 源码获取与编译指南

本文将详细介绍如何注册码云账号、配置SSH公钥、安装必要的开发工具，并逐步讲解如何下载、编译 HarmonyOS 2.0 源码。通过本文，您将能够顺利完成 HarmonyOS 2.0 的环境搭建和源码编译。 ... [详细]

蜡笔小新 2024-11-12 11:55:04
command
Mac上安装Jupyter Notebook的详细步骤与技巧

本文将详细介绍如何在Mac上安装Jupyter Notebook，并提供一些常见的问题解决方法。通过这些步骤，您将能够顺利地在Mac上运行Jupyter Notebook。 ... [详细]

蜡笔小新 2024-11-12 00:45:51
int
InfluxDB、collectd与Grafana的详细安装与配置指南

本文详细介绍了 InfluxDB、collectd 和 Grafana 的安装与配置流程。首先，按照启动顺序依次安装并配置 InfluxDB、collectd 和 Grafana。InfluxDB 作为时序数据库，用于存储时间序列数据；collectd 负责数据的采集与传输；Grafana 则用于数据的可视化展示。文中提供了 collectd 的官方文档链接，便于用户参考和进一步了解其配置选项。通过本指南，读者可以轻松搭建一个高效的数据监控系统。 ... [详细]

蜡笔小新 2024-11-11 19:54:24
int
在Windows环境中使用SecureCRT高效连接Linux服务器

SecureCRT是一款功能强大的终端仿真软件，支持SSH1和SSH2协议，适用于在Windows环境下高效连接和管理Linux服务器。该工具不仅提供了稳定的连接性能，还具备丰富的配置选项，能够满足不同用户的需求。通过SecureCRT，用户可以轻松实现对远程Linux系统的安全访问和操作。 ... [详细]

蜡笔小新 2024-11-10 14:46:15
int
ThinkPHP模板中函数调用的开发技巧与实践

ThinkPHP模板中函数调用的开发技巧与实践 ... [详细]

蜡笔小新 2024-11-10 09:43:14
export
在Linux系统上编译安装MySQL 5.5源码详细指南

本文详细介绍了在Linux系统上编译安装MySQL 5.5源码的步骤。首先，通过Yum安装必要的依赖软件包，如GCC、GCC-C++等，确保编译环境的完备。接着，下载并解压MySQL 5.5的源码包，配置编译选项，进行编译和安装。最后，完成安装后，进行基本的配置和启动测试，确保MySQL服务正常运行。 ... [详细]

蜡笔小新 2024-11-08 19:06:26
import
如何使用ES6语法编写Webpack配置文件？

如何使用ES6语法编写Webpack配置文件？ ... [详细]

蜡笔小新 2024-11-08 15:07:33
import
Hibernate（第四部分）：深入探讨缓存机制与懒加载策略

在探讨Hibernate框架的高级特性时，缓存机制和懒加载策略是提升数据操作效率的关键要素。缓存策略能够显著减少数据库访问次数，从而提高应用性能，特别是在处理频繁访问的数据时。Hibernate提供了多层次的缓存支持，包括一级缓存和二级缓存，以满足不同场景下的需求。懒加载策略则通过按需加载关联对象，进一步优化了资源利用和响应时间。本文将深入分析这些机制的实现原理及其最佳实践。 ... [详细]

蜡笔小新 2024-11-07 16:19:28
export
Vue应用预渲染技术详解与实践

Vue应用预渲染技术详解与实践 ... [详细]

蜡笔小新 2024-11-07 13:12:35
int
Kafka 集群的高效部署与优化策略

本文探讨了 Kafka 集群的高效部署与优化策略。首先介绍了 Kafka 的下载与安装步骤，包括从官方网站获取最新版本的压缩包并进行解压。随后详细讨论了集群配置的最佳实践，涵盖节点选择、网络优化和性能调优等方面，旨在提升系统的稳定性和处理能力。此外，还提供了常见的故障排查方法和监控方案，帮助运维人员更好地管理和维护 Kafka 集群。 ... [详细]

蜡笔小新 2024-11-06 20:37:50
version
深入解析 FCEUX 源码：两种制作 DEB 包的方法及修改现有 DEB 包的技术细节

本文深入解析了 FCEUX 源码，并详细介绍了两种制作 DEB 包的方法及其技术细节。首先，DEB 包通常由两部分组成：控制信息（位于 DEBIAN 目录）和安装内容（模拟目录）。通过解压现有的 DEB 包，可以查看其内部结构，进而理解其工作原理。具体操作包括将安装内容释放到指定目录中，以便进行进一步的修改和定制。此外，文章还探讨了如何修改现有的 DEB 包，以满足特定需求，提供了实用的步骤和技巧。 ... [详细]

蜡笔小新 2024-11-05 11:34:24

zjy135781012

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章