当前位置: 开发笔记 > 运维 > 正文

Linux中安装配置hadoop集群详细步骤

作者：牛牛的牛66_674 | 来源：互联网 | 2022-08-11 16:24

一. 简介参考了网上许多教程，最终把hadoop在ubuntu14.04中安装配置成功。下面就把详细的安装步骤叙述一下。我所使用的环

一. 简介

参考了网上许多教程，最终把hadoop在ubuntu14.04中安装配置成功。下面就把详细的安装步骤叙述一下。我所使用的环境：两台ubuntu 14.04 64位的台式机，hadoop选择2.7.1版本。（前边主要介绍单机版的配置，集群版是在单机版的基础上，主要是配置文件有所不同，后边会有详细说明）

二. 准备工作

2.1 创建用户

创建用户，并为其添加root权限，经过亲自验证下面这种方法比较好。

 sudo adduser hadoop
 sudo vim /etc/sudoers
 # 修改内容如下：
 root ALL = (ALL)ALL
hadoop ALL = (ALL)ALL

给hadoop用户创建目录，并添加到sudo用户组中，命令如下：

 sudo chown hadoop /home/hadoop
 # 添加到sudo用户组
 sudo adduser hadoop sudo

最后注销当前用户，使用新创建的hadoop用户登陆。

2.2 安装ssh服务

ubuntu中默认是没有装ssh server的（只有ssh client），所以先运行以下命令安装openssh-server。安装过程轻松加愉快～

sudo apt-get install ssh openssh-server

2.3 配置ssh无密码登陆

直接上代码：执行完下边的代码就可以直接登陆了（可以运行ssh localhost进行验证）

cd ~/.ssh　　# 如果找不到这个文件夹，先执行一下 "ssh localhost"
 ssh-keygen -t rsa
 cp id_rsa.pub authorized_keys

注意：

这里实现的是无密登陆自己，只适用与hadoop单机环境。如果配置Hadoop集群设置Master与Slave的SSH无密登陆可以参考我的另一篇博文：https://www.jb51.net/article/105483.htm

三. 安装过程

3.1 下载hadoop安装包

有两种下载方式：

1. 直接去官网下载：

http://mirrors.hust.edu.cn/apache/hadoop/core/stable/hadoop-2.7.1.tar.gz

2. 使用wget命令下载：

代码如下:

wget http://mirrors.hust.edu.cn/apache/hadoop/core/stable/hadoop-2.7.1.tar.gz

3.2 配置hadoop

1. 解压下载的hadoop安装包，并修改配置文件。我的解压目录是（/home/hadoop/hadoop-2.7.1），即进入/home/hadoop/文件夹下执行下面的解压缩命令。

tar -zxvf hadoop-2.7.1.tar.gz

2. 修改配置文件：（hadoop2.7.1/etc/hadoop/）目录下，hadoop-env.sh，core-site.xml，mapred-site.xml.template，hdfs-site.xml。

(1). core-site.xml 配置：其中的hadoop.tmp.dir的路径可以根据自己的习惯进行设置。





hadoop.tmp.dir

file:/home/hadoop/hadoop/tmp

Abase for other temporary directories.





fs.defaultFS

hdfs://localhost:9000

(2). mapred-site.xml.template配置:





mapred.job.tracker

localhost:9001

(3). hdfs-site.xml配置: 其中dfs.namenode.name.dir和dfs.datanode.data.dir的路径可以自由设置，最好在hadoop.tmp.dir的目录下面。

注意：如果运行Hadoop的时候发现找不到jdk，可以直接将jdk的路径放置在hadoop-env.sh里面，具体如下：

export JAVA_HOME="/opt/java_file/jdk1.7.0_79"，即安装java时的路径。





dfs.replication

1





dfs.namenode.name.dir

file:/home/hadoop/hadoop/tmp/dfs/name





dfs.datanode.data.dir

file:/home/hadoop/hadoop/tmp/dfs/data

配置完成后运行hadoop。

四. 运行hadoop

4.1 初始化HDFS系统

在hadop2.7.1目录下执行命令：

bin/hdfs namenode -format

出现如下结果说明初始化成功。

4.2 开启 NameNode 和 DataNode 守护进程

在hadop2.7.1目录下执行命令：

sbin/start-dfs.sh

成功的截图如下：

4.3 使用jps命令查看进程信息：

若出现如图所示结果，则说明DataNode和NameNode都已经开启。

4.4 查看web界面

在浏览器中输入 http://localhost:50070 ，即可查看相关信息，截图如下

至此，hadoop的环境就已经搭建好了。

五. 运行wordcount demo

1. 在本地新建一个文件，里面内容随便填：例如我在home/hadoop目录下新建了一个haha.txt文件，里面的内容为" hello world! "。

2. 然后在分布式文件系统（hdfs）中新建一个test文件夹，用于上传我们的测试文件haha.txt。在hadoop-2.7.1目录下运行命令：

# 在hdfs的根目录下建立了一个test目录
bin/hdfs dfs -mkdir /test

# 查看HDFS根目录下的目录结构
bin/hdfs dfs -ls /

结果如下：

3. 将本地haha.txt文件上传到test目录中；

# 上传
bin/hdfs dfs -put /home/hadoop/haha.txt /test/
# 查看
bin/hdfs dfs -ls /test/

结果如下：

4. 运行wordcount demo；

# 将运行结果保存在/test/out目录下
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount /test/haha.txt /test/out
# 查看/test/out目录下的文件
bin/hdfs dfs -ls /test/out

结果如下：

运行结果表示：运行成功，结果保存在part-r-00000中。

5. 查看运行结果；

# 查看part-r-00000中的运行结果
bin/hadoop fs -cat /test/out/part-r-00000

结果如下：

至此，wordcount demo 运行结束。

六. 总结

配置过程遇到了很多问题，最后都一一解决，收获很多，特此把这次配置的经验分享出来，方便想要配置hadoop环境的各位朋友～

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

推荐阅读

tomcat
简化报表生成：EasyReport工具的全面解析

本文详细介绍了EasyReport，一个易于使用的开源Web报表工具。该工具支持Hadoop、HBase及多种关系型数据库，能够将SQL查询结果转换为HTML表格，并提供Excel导出、图表显示和表头冻结等功能。 ... [详细]

蜡笔小新 2024-12-22 11:11:28
ubuntu
Docker的安全基准

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2024-12-28 13:00:24
linux
网络链路质量监控：Smokeping部署与配置

本文详细介绍了如何在Linux系统上安装和配置Smokeping，以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装，确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]

蜡笔小新 2024-12-27 19:31:05
tomcat
Dockerfile 编写与 Docker 网络配置详解

本文详细介绍了 Dockerfile 的编写方法及其在网络配置中的应用，涵盖基础指令、镜像构建与发布流程，并深入探讨了 Docker 的默认网络、容器互联及自定义网络的实现。 ... [详细]

蜡笔小新 2024-12-27 17:31:41
tomcat
网络运维工程师的前景与薪酬分析

网络运维工程师负责确保企业IT基础设施的稳定运行，保障业务连续性和数据安全。他们需要具备多种技能，包括搭建和维护网络环境、监控系统性能、处理突发事件等。本文将探讨网络运维工程师的职业前景及其平均薪酬水平。 ... [详细]

蜡笔小新 2024-12-26 14:35:04
linux
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
运维
HBase运维工具全解析

本文深入探讨了HBase常用的运维工具，详细介绍了每种工具的功能、使用场景及操作示例。对于HBase的开发人员和运维工程师来说，这些工具是日常管理和故障排查的重要手段。 ... [详细]

蜡笔小新 2024-12-24 17:00:59
容器
Flink 与 YARN 的集成

本文详细介绍了 Flink 和 YARN 的交互机制。YARN 是 Hadoop 生态系统中的资源管理组件，类似于 Spark on YARN 的配置方式。我们将基于官方文档，深入探讨如何在 YARN 上部署和运行 Flink 任务。 ... [详细]

蜡笔小新 2024-12-24 11:15:38
centos
CentOS 6.3 64位系统下搭建LAMP环境并安装PHP 5.5.7

在成功安装和测试MySQL及Apache之后，接下来的步骤是安装PHP。为了确保安全性和配置的一致性，建议在安装PHP前先停止MySQL和Apache服务，并将MySQL集成到PHP中。 ... [详细]

蜡笔小新 2024-12-23 13:08:12
centos
Hadoop发行版本选择指南：技术解析与应用实践

本文详细介绍了Hadoop的不同发行版本及其特点，帮助读者根据实际需求选择最合适的Hadoop版本。内容涵盖Apache Hadoop、Cloudera CDH等主流版本的特性及应用场景。 ... [详细]

蜡笔小新 2024-12-22 20:38:12
运维
全面解析运维监控：白盒与黑盒监控及四大黄金指标

本文深入探讨了白盒和黑盒监控的概念，以及它们在系统监控中的应用。通过详细分析基础监控和业务监控的不同采集方法，结合四个黄金指标的解读，帮助读者更好地理解和实施有效的监控策略。 ... [详细]

蜡笔小新 2024-12-22 14:02:29
linux
从码农到创业者：我的职业转型之路

在观察了众多同行的职业发展后，我决定分享自己的故事。本文探讨了为什么大多数程序员难以成为架构师，并阐述了我从一家外企离职后投身创业的心路历程。 ... [详细]

蜡笔小新 2024-12-21 15:55:02
linux
解决Classic ASP与PHP HMAC_SHA256哈希结果不一致的问题

本文探讨了如何在Classic ASP中实现与PHP的hash_hmac('SHA256', $message, pack('H*', $secret))函数等效的哈希生成方法。通过分析不同实现方式及其产生的差异，提供了一种使用Microsoft .NET Framework的解决方案。 ... [详细]

蜡笔小新 2024-12-21 10:38:09
ssh
无屏幕环境下树莓派4B的安装与配置指南

本文将详细介绍如何在没有显示器的情况下，使用Raspberry Pi Imager为树莓派4B安装操作系统，并进行基本配置，包括设置SSH、WiFi连接以及更新软件源。 ... [详细]

蜡笔小新 2024-12-21 08:14:50
ssh
使用正则表达式去除字符串中单词间的空格

本文探讨了如何在Hive（基于Hadoop）环境中编写类似SQL的语句，以去除字段中的空格。特别是在处理邮政编码等数据时，去除特定位置的空格是常见的需求。 ... [详细]

蜡笔小新 2024-12-20 19:08:43

牛牛的牛66_674

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章