CentOS7.2下Hadoop集群安装与配置

作者：良良8003 | 来源：互联网 | 2023-07-26 12:25

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd

# hadoop Hadoop

1 Hadoop 是什么？

Apache Hadoop 是一个支持数据密集型分布式应用程序的开源软件框架，能在大型集群上运行应用程序。Hadoop 框架实现了 MapReduce 编程范式，把应用程序分成许多小部分，每个部分能在任意节点上运行。并且 Hadoop 提供了分布式文件系统存储所有计算节点的数据，为集群带来非常高的带宽。

2 搭建说明

本文几乎所有操作都需要在三台服务器上进行同样的操作，所以为了便于表示，在需要三台服务器上进行同样操作的时候会使用 x3 进行标注。
命令当中的 # 代表 root 用户执行。
命令当中的 $ 代表 hadoop 用户执行。
### 为该命令的注释。

注：可在一台机子上配置好后利用 scp 命令进行复制，若在虚拟机则可直接复制虚拟机。

2.1 节点机器配置

NodeName	OS	CPU	RAM	Disk	IP
NameNode	CentOS 7.2	E7-4830 v3 @ 2.10GHz x2	2G	100G	192.168.1.69
DataNode1	CentOS 7.2	E7-4830 v3 @ 2.10GHz x2	2G	500G	192.168.1.70
DataNode2	CentOS 7.2	E7-4830 v3 @ 2.10GHz x2	2G	500G	192.168.1.71

2.2 软件包版本

Software	Version
JDK	Oracle JDK 1.8.0_131(非OpenJDK)
Hadoop	2.8.0

3 安装JDK `x3`

# mkdir -p /usr/local/Java

# cd /usr/local/java

# wget http://download.oracle.com/otn-pub/java/jdk/8u131-b11/d54c1d3a095b4ff2b6607d096fa80163/jdk-8u131-linux-x64.tar.gz

# tar -xvzf jdk-8u131-linux-x64.tar.gz

### 设置新的 JDK 为默认 JDK，如果机器已经安装 OpenJDK，可能需要先卸载。

# echo "export JAVA_HOME=/usr/local/java/jdk1.8.0_131/" >> /etc/profile

# echo "export PATH=$PATH:$JAVA_HOME/bin" >> /etc/profile

# source /etc/profile

### 测试运行

# $JAVA_HOME/bin/java -version

java version "1.8.0_131"

Java(TM) SE Runtime Environment (build 1.8.0_131-b11)

Java HotSpot(TM) 64-Bit Server VM (build 25.131-b11, mixed mode)

4 关闭防火墙 `x3`

直接关闭整个防火墙不是一个明智的选择，在具体环境中应该挑选出需要的端口，进行放行，本文由于篇幅原因，不再详细讨论，故采用直接关闭防火墙的方法。

# systemctl stop firewalld.service

# systemctl disable firewalld.service

5 配置 `hostname` 及局域网映射 `x3`

# hostnamectl set-hostname namenode ### 为 namenode 节点设置 hostname

# hostnamectl set-hostname datanode1 ### 为 datanode1 节点设置 hostname

# hostnamectl set-hostname datanode2 ### 为 datanode2 节点设置 hostname

# echo "192.168.1.69 namenode" >> /etc/hosts

# echo "192.168.1.70 datanode1" >> /etc/hosts

# echo "192.168.1.71 datanode2" >> /etc/hosts

6 创建 hadoop 用户以及 hadoop 用户组 `x3`

# groupadd hadoop

# useradd -m -g hadoop hadoop

# passwd hadoop

7 SSH 免密登录

Hadoop 在 namenode 节点中使用 ssh 来访问各节点服务器，例如开启或关闭 hadoop。显然在大型集群中，不可能手动逐个输入密码，在这种情况下，我们可以利用 ssh-agent 代理我们输入密码。

注:该设置只需要在 namenode 节点设置。

7.1 ssh-agent

配置 ssh-agent 开机自动运行

# echo 'eval $(ssh-agent)' >> /etc/profile

# source /etc/profile

7.2 配置免密登录

在 namenode 节点上登录 hadoop 用户

$ ssh-keygen -t rsa -f ~/.ssh/id_rsa ### 输入密钥

$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

$ chmod 644 ~/.ssh/authorized_keys

$ ssh-copy-id datanode1 ### 将公钥 copy 到 datanode1

$ ssh-copy-id datanode2 ### 将公钥 copy 到 datanode2

$ ssh-add ~/.ssh/id_rsa ### 使用 ssh-agent 实现免密登录

$ ssh datanode1 ### 测试无需密码即可登录 datanode1

8 磁盘挂载（OPtional） `x3`

# mkdir /home/hadoop/hdfs

# mount /dev/sdb1 /home/hadoop/hdfs/

# chown -R hadoop:hadoop /home/hadoop/hdfs/

# echo "/dev/sdb1 /home/hadoop/hdfs ext4 defaults 0 0" >> /etc/fstab

9 安装 Hadoop `x3`

# cd /usr/local

# wget https://mirrors.scau.edu.cn/hadoop/hadoop-2.8.0.tar.gz ### 使用自己的镜像源

# wget https://mirrors.ustc.edu.cn/apache/hadoop/common/hadoop-2.8.0/hadoop-2.8.0.tar.gz

# tar -xvzf hadoop-2.8.0.tar.gz

# chown -R hadoop:hadoop hadoop-2.8.0

10 配置 Hadoop `x3`

复制默认配置文件,在升级 hadoop 版本时可独立出来。

$ mkdir ~/config/

$ cp -r /usr/local/hadoop-2.8.0/etc/hadoop/ ~/config/

指定 hadoop 运行所使用的 JDK 与配置目录, vim ~/config/hadoop/hadoop-env.sh

$ export JAVA_HOME=/usr/local/java/jdk1.8.0_131/

$ export HADOOP_CONF_DIR=/home/hadoop/config/hadoop/

### 最好将该环境变量也加入 /etc/profile

# echo "export HADOOP_CONF_DIR=/home/hadoop/config/hadoop/" >> /etc/profile

10.1 log 存储位置

修改 hadoop log 存储位置

$ echo "export HADOOP_LOG_DIR=~/log/hadoop" >> ~/config/hadoop/hadoop-env.sh

修改 YARN log 存储位置,$ vim config/hadoop/yarn-env.sh。

YARN_LOG_DIR="/home/hadoop/log/yarn/"

10.2 配置 core-site.xml

$ vim ~/config/hadoop/core-site.xml

<description>默认文件系统及端口description>

<name>fs.defaultFSname>

<value>hdfs://namenode/value>

<final>truefinal>

property>

configuration>

10.3 配置 hdfs-site.xml

$ vim ~/config/hadoop/hdfs-site.xml

<configuration>
<property>
<description>namedoe 存储永久性的元数据目录列表description>
<name>dfs.namenode.name.dirname>
<value>/home/hadoop/hdfs/name/value>
<final>truefinal>
property>
 
<property>
<description>datanode 存放数据块的目录列表description>
<name>dfs.datanode.data.dirname>
<value>/home/hadoop/hdfs/data/value>
<final>truefinal>
property>
configuration>
```
 
#### 10.4 配置 mapred-site.xml
***
``` bash
$ vim ~/config/hadoop/mapred-site.xml

<description>MapReduce 执行框架设为 Hadoop YARN. description>

<name>mapreduce.framework.namename>

<value>yarnvalue>

property>

<description>Map 和 Reduce 执行的比例，Map 执行到百分之几后开始 Reduce 作业description>

<name>mapreduce.job.reduce.slowstart.completedmapsname>

<value>1.0value>

property>

configuration>

10.5 配置 yarn-site.xml

$ vim ~/config/hadoop/yarn-site.xml

<description>The address of the applications manager interface in the RM.description>

<name>yarn.resourcemanager.addressname>

<value>namenode:8032value>

property>

<name>yarn.nodemanager.aux-servicesname>

<value>mapreduce_shufflevalue>

property>

<description>存储中间数据的本地目录description>

<name>yarn.nodemanager.local-dirsname>

<value>/home/hadoop/nm-local-dirvalue>

<final>truefinal>

property>

<description>每个容器可在 RM 申请的最大内存description>

<name>yarn.scheduler.maximum-allocation-mbname>

<value>2048value>

<final>truefinal>

property>

<description>每个容器可在 RM 申请的最小内存description>

<name>yarn.scheduler.minimum-allocation-mbname>

<value>300value>

<final>truefinal>

property>

<description>自动检测节点 CPU 与 Memdescription>

<name>yarn.nodemanager.resource.detect-hardware-capabilitiesname>

<value>truevalue>

property>

<description>The address of the scheduler interface.description>

<name>yarn.resourcemanager.scheduler.addressname>

<value>namenode:8030value>

property>

<description>The address of the RM web application.description>

<name>yarn.resourcemanager.webapp.addressname>

<value>namenode:8088value>

property>

<description>The address of the resource tracker interface.description>

<name>yarn.resourcemanager.resource-tracker.addressname>

<value>namenode:8031value>

property>

<description>The hostname of the RM.description>

<name>yarn.resourcemanager.hostnamename>

<value>namenodevalue>

property>

configuration>

10.6 配置 slaves

$ vim ~/config/hadoop/slaves

namenode

datanode1

datanode2

11 优化 namenode 节点命令使用

$ echo "export PATH=$PATH:/usr/local/hadoop-2.8.0/bin/:/usr/local/hadoop-2.8.0/sbin/" >> ~/.bash_profile

$ source ~/.bash_profile

12 启动集群及测试

测试之前最好重启一遍三台机器，以确保配置都生效，并且没有其他问题。

$ ssh-add ~/.ssh/id_rsa ### 验证密钥

$ hadoop namenode -format ### 初始化集群

$ start-dfs.sh ### 启动 HDFS

$ start-yarn.sh ### 启动 YARN

12.1 集群总览

NodeName	Web	Address
namenote	HDFS	http://192.168.1.69:50070
	RM	http://192.168.1.69:8088
	NM	http://192.168.1.69:8042
datanode1	HDFS	http://192.168.1.70:50075
	NM	http://192.168.1.70:8042
datanode2	HDFS	http://192.168.1.71:50075
	NM	http://192.168.1.71:8042

Hadoop2.3-HA高可用集群环境搭建 2017-03/142155.htm

Hadoop项目之基于CentOS7的Cloudera 5.10.1（CDH）的安装部署 2017-04/143095.htm

Hadoop2.7.2集群搭建详解（高可用） 2017-03/142052.htm

使用Ambari来部署Hadoop集群（搭建内网HDP源） 2017-03/142136.htm

Ubuntu 14.04下Hadoop集群安装 2017-02/140783.htm

CentOS 7 下 Hadoop 2.6.4 分布式集群环境搭建 2017-06/144932.htm

Ubuntu 16.04上构建分布式Hadoop-2.7.3集群 2017-07/145503.htm

Hadoop2.7.3+Spark2.1.0完全分布式集群搭建过程 2017-06/144926.htm

12.2 测试用例

hadoop 自带了许多测试用例，所以可以很方便的快速测试集群是否搭建成功。

$ yarn jar /usr/local/hadoop-2.8.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.0.jar randomwriter random-data

执行上述命令后，打开 RM 以及 NM 的 URL ，查看任务是否被执行，如执行，则搭建成功。

12.3 图片展示

# hadoop hadoop

#hadoop-task

13 总结

本文从零开始搭建了具有三个节点服务器的 Hadoop 集群，示范了 Hadoop 搭建集群的基本配置。并且从中我们可以知道 Hadoop 集群的每台机子的配置几乎是相同的，这是大量重复性的劳动，因此使用 docker 会大大加快集群的部署。文中的配置文件，是我根据我自己的三台服务器的机器硬件所决定的参数，读者应该根据自己的实际情况选择参数的设置，下文的参考资料给出了各种属性的说明以及默认值。

14 参考资料

core-default.xml
hdfs-default.xml
mapred-default.xml
yarn-default.xml
DeprecatedProperties

Hadoop 专题页面 =13

推荐阅读

go
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
php
在Linux系统中避免安装MySQL的简易指南

在Linux系统中避免安装MySQL的简易指南 ... [详细]

蜡笔小新 2024-11-11 13:22:28
php
如何在Nginx服务器上轻松配置CertBot以实现SSL证书自动化管理

为了确保iOS应用能够安全地访问网站数据，本文介绍了如何在Nginx服务器上轻松配置CertBot以实现SSL证书的自动化管理。通过这一过程，可以确保应用始终使用HTTPS协议，从而提升数据传输的安全性和可靠性。文章详细阐述了配置步骤和常见问题的解决方法，帮助读者快速上手并成功部署SSL证书。 ... [详细]

蜡笔小新 2024-11-10 08:42:08
char
Ave V8 JavaScript 引擎：持续优化与创新

V8不仅是一款著名的八缸发动机，广泛应用于道奇Charger、宾利Continental GT和BossHoss摩托车中。自2008年以来，作为Chromium项目的一部分，V8 JavaScript引擎在性能优化和技术创新方面取得了显著进展。该引擎通过先进的编译技术和高效的垃圾回收机制，显著提升了JavaScript的执行效率，为现代Web应用提供了强大的支持。持续的优化和创新使得V8在处理复杂计算和大规模数据时表现更加出色，成为众多开发者和企业的首选。 ... [详细]

蜡笔小新 2024-11-09 15:56:40
php
在CentOS系统下详细解析阿里云ECS服务器上搭建LAMP环境的配置步骤

本文详细介绍了在CentOS 6.5 64位系统上使用阿里云ECS服务器搭建LAMP环境的具体步骤。首先，通过PuTTY工具实现远程连接至服务器。接着，检查当前系统的磁盘空间使用情况，确保有足够的空间进行后续操作，可使用 `df` 命令进行查看。此外，文章还涵盖了安装和配置Apache、MySQL和PHP的相关步骤，以及常见问题的解决方法，帮助用户顺利完成LAMP环境的搭建。 ... [详细]

蜡笔小新 2024-11-09 15:09:47
bash
CentOS 7 中配置开机自动挂载 NFS 的解决方案

本文详细介绍了在 CentOS 7 系统中配置 fstab 文件以实现开机自动挂载 NFS 共享目录的方法，并解决了常见的配置失败问题。 ... [详细]

蜡笔小新 2024-11-13 12:05:24
export
Linux CentOS 7 安装PostgreSQL 9.5.17 （源码编译）

近日需要将PostgreSQL数据库从Windows中迁移到Linux中，LinuxCentOS7安装PostgreSQL9.5.17安装过程特此记录。安装环境&#x ... [详细]

蜡笔小新 2024-11-12 22:05:03
php
秒建一个后台管理系统？用这5个开源免费的Java项目就够了

秒建一个后台管理系统？用这5个开源免费的Java项目就够了 ... [详细]

蜡笔小新 2024-11-12 03:21:33
export
如何在Linux服务器上配置MySQL和Tomcat的开机自动启动

在Linux服务器上部署Web项目时，通常需要确保MySQL和Tomcat服务能够随系统启动而自动运行。本文将详细介绍如何在Linux环境中配置MySQL和Tomcat的开机自启动，以确保服务的稳定性和可靠性。通过合理的配置，可以有效避免因服务未启动而导致的项目故障。 ... [详细]

蜡笔小新 2024-11-11 19:41:03
php
在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解

在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解 ... [详细]

蜡笔小新 2024-11-11 17:28:29
php
在Windows环境中使用SecureCRT高效连接Linux服务器

SecureCRT是一款功能强大的终端仿真软件，支持SSH1和SSH2协议，适用于在Windows环境下高效连接和管理Linux服务器。该工具不仅提供了稳定的连接性能，还具备丰富的配置选项，能够满足不同用户的需求。通过SecureCRT，用户可以轻松实现对远程Linux系统的安全访问和操作。 ... [详细]

蜡笔小新 2024-11-10 14:46:15
php
服务器部署中的安全策略实践与优化

服务器部署中的安全策略实践与优化 ... [详细]

蜡笔小新 2024-11-10 13:04:30
php
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
php
解决 Ubuntu 下 Samba 重新安装时配置文件未重新生成的问题

在 Ubuntu 中遇到 Samba 服务器故障时，尝试卸载并重新安装 Samba 发现配置文件未重新生成。本文介绍了解决该问题的方法。 ... [详细]

蜡笔小新 2024-11-12 13:02:23
php
华为云对象存储系统配置指南

本指南详细介绍了如何利用华为云对象存储服务构建视频点播（VoD）平台。通过结合开源技术如Ceph、WordPress、PHP和Nginx，用户可以高效地实现数据存储、内容管理和网站搭建。主要内容涵盖华为云对象存储系统的配置步骤、性能优化及安全设置，为开发者提供全面的技术支持。 ... [详细]

蜡笔小新 2024-11-11 14:29:52