大数据｜Hadoop部署安装和启动以及目录结构介绍（三）

作者：美好时光33_862 | 来源：互联网 | 2023-10-10 20:11

一、hadoop的部署安装1、安装JDK：下载jdk，解压，配置环境变量2、安装hadoop：下载安装包，解压利用tar-zxvf把hadoop的jar包放到指定的目录下。tar-

一、hadoop的部署安装

1、安装JDK：下载jdk，解压，配置环境变量

2、安装hadoop：下载安装包，解压

利用tar -zxvf把hadoop的jar包放到指定的目录下。

tar -zxvf /home/software/hadoop-2.4.1.tar.gz
-z：以gz结尾的文件就是用gzip压缩的结果。与gzip相对的就是gunzip，这个参数的作用就是用来调用gzip。
-x：&＃8211;extract，&＃8211;get解压文件
-v：显示操作过程，这个参数很常用
-f：使用文档名，注意，在f之后要立即接文档名，不要再加其他参数

二、修改hadoop配置文件，为启动hadoop做准备

1、先熟悉下hadoop整个的目录结构

1）bin：Hadoop最基本的管理脚本和使用脚本的目录，这些脚本是sbin目录下管理脚本的基础实现，用户可以直接使用这些脚本管理和使用Hadoop。

2）sbin：Hadoop管理脚本所在的目录，主要包含HDFS和YARN中各类服务的启动/关闭脚本。

3）etc：Hadoop配置文件所在的目录，包括core-site.xml、hdfs-site.xml、mapred-site.xml等从Hadoop1.0继承而来的配置文件和yarn-site.xml等Hadoop2.0新增的配置文件。

4）本地平台相关库（include、lib、libexec），include：对外提供的编程库头文件（具体动态库和静态库在lib目录中），这些头文件均是用C++定义的，通常用于C++程序访问HDFS或者编写MapReduce程序。lib：该目录包含了Hadoop对外提供的编程动态库和静态库，与include目录中的头文件结合使用。libexec：各个服务对用的shell配置文件所在的目录，可用于配置日志输出、启动参数（比如JVM参数）等基本信息。

5）share：Hadoop各个模块编译后的jar包所在的目录。

《大数据｜Hadoop部署安装和启动以及目录结构介绍（三）》 hadoop的目录结构

2、hadoop重点目录介绍及修改

1）etc/hadoop/hadoop-env.sh

配置etc/hadoop/hadoop-env.sh文件，修改为你的jdk的安装位置。

《大数据｜Hadoop部署安装和启动以及目录结构介绍（三）》 hadoop-env.sh

2）etc/hadoop/core-site.xml

编辑文件etc/hadoop/core-site.xml文件，指定默认文件系统和工作空间（现在该路径下还没有tmp文件夹，执行完hdfs格式化后便可看到相关文件）。

《大数据｜Hadoop部署安装和启动以及目录结构介绍（三）》 core-site.xml

3）etc/hadoop/hdfs-site.xml

编辑文件etc/hadoop/hdfs-site.xml文件，设置文件副本数，也就是文件分割成块后，要复制块个数（由于此处就本机一个节点，伪分布式，所以就配置为1，文件本身，不需要副本）。

《大数据｜Hadoop部署安装和启动以及目录结构介绍（三）》 hdfs-site.xml

4）etc/hadoop/mapred-site.xml

编辑文件etc/hadoop/mapred-site.xml文件，此文件其实不存在，是把存在的mapred-site.xml.template修改为mapred-site.xml（mv mapred-site.xml.template mapred-site.xml），用于指定资源调度框架。

《大数据｜Hadoop部署安装和启动以及目录结构介绍（三）》 mapred-site.xml

5）etc/hadoop/yarn-site.xml

编辑文件etc/hadoop/yarn-site.xml文件，yarn也是分布式管理的，所以配置一个主服务器，然后还要配置中间数据调度的机制。

《大数据｜Hadoop部署安装和启动以及目录结构介绍（三）》 yarn-site.xml

6）配置masters和slaves主从结点

配置/masters和/slaves来设置主从结点，注意最好使用主机名，并且保证机器之间通过主机名可以互相访问，每个主机名一行。

《大数据｜Hadoop部署安装和启动以及目录结构介绍（三）》 masters和slaves

总结：配置结束，把配置好的hadoop文件夹拷贝到其他集群的机器中，并且保证上面的配置对于其他机器而言正确，例如：如果其他机器的Java安装路径不一样，要修改etc/hadoop/hadoop-env.sh。

三、启动hadoop

1）格式化hdfs

在bin/hadoop中执行 ./hadoop namenode -format，或如下图直接执行。

《大数据｜Hadoop部署安装和启动以及目录结构介绍（三）》格式化hdfs

2）启动hdfs

mapreduce不是服务，只是一个库，所以不需要启动。hdfs和yarn是相互独立的服务，可以单独启动，也可以使用hadoop的脚本自动化启动。

（1）方法一：分别启动

启动hdfs的脚本在sbin/hadoop-daemon.sh中，手动启动方式如下：

《大数据｜Hadoop部署安装和启动以及目录结构介绍（三）》手动启动hdfs

启动yarn的脚本在sbin/yarn-daemon.sh中，手动启动方式如下：

《大数据｜Hadoop部署安装和启动以及目录结构介绍（三）》手动启动yarn

（2）方法二：自动化启动

启动hdfs，sbin/start-dfs.sh

启动yarn，sbin/start-yarn.sh

（3）方法三：

同时启动hdfs和yarn，sbin/start-all.sh

推荐阅读

string
深入理解Spark框架：RDD核心概念与操作详解

RDD是Spark框架的核心计算模型，全称为弹性分布式数据集（Resilient Distributed Dataset）。本文详细解析了RDD的基本概念、特性及其在Spark中的关键操作，包括创建、转换和行动操作等，帮助读者深入理解Spark的工作原理和优化策略。通过具体示例和代码片段，进一步阐述了如何高效利用RDD进行大数据处理。 ... [详细]

蜡笔小新 2024-10-29 20:10:01
go
H5技术实现经典游戏《贪吃蛇》

本文将分享一个使用HTML5技术实现的经典小游戏——《贪吃蛇》。通过H5技术，我们将探讨如何构建这款游戏的两种主要玩法：积分闯关和无尽模式。 ... [详细]

蜡笔小新 2024-11-21 20:16:59
netty
我的读书清单（持续更新）

我的读书清单（持续更新）201705311.《一千零一夜》2006（四五年级）2.《中华上下五千年》2008（初一）3.《鲁滨孙漂流记》2008（初二）4.《钢铁是怎样炼成的》20 ... [详细]

蜡笔小新 2024-11-21 13:01:23
netty
菜鸟物流核心部门诚聘P6及以上JAVA工程师

菜鸟物流用户增长部现正大规模招聘P6及以上级别的JAVA工程师，提供年后入职选项。 ... [详细]

蜡笔小新 2024-11-20 16:25:34
get
深入理解云计算与大数据技术

本文详细探讨了云计算与大数据技术的关键知识点，包括大数据处理平台、社会网络大数据、城市大数据、工业大数据、教育大数据、数据开放与共享的应用，以及搜索引擎与Web挖掘、推荐技术的研究及应用。文章还涵盖了云计算的基础概念、特点和服务类型分类。 ... [详细]

蜡笔小新 2024-11-20 13:24:51
list
电商高并发解决方案详解

本文以京东为例，详细探讨了电商中常见的高并发解决方案，包括多级缓存和Nginx限流技术，旨在帮助读者更好地理解和应用这些技术。 ... [详细]

蜡笔小新 2024-11-18 14:59:39
list
Hadoop平台警告解决：无法加载本机Hadoop库的全面应对方案

本文探讨了在Hadoop平台上遇到“无法加载本机Hadoop库”警告的多种解决方案。首先，通过修改日志配置文件来忽略该警告，这一方法被证明是有效的。其次，尝试指定本地库的路径，但未能解决问题。接着，尝试不使用Hadoop本地库，同样没有效果。然后，通过替换现有的Hadoop本地库，成功解决了问题。最后，根据Hadoop的源代码自行编译本地库，也达到了预期的效果。以上方法适用于macOS系统。 ... [详细]

蜡笔小新 2024-11-09 19:46:30
list
Zookeeper在Hadoop生态系统中的关键作用与应用分析

Zookeeper作为Apache Hadoop生态系统中的一个重要组件，主要致力于解决分布式应用中的常见数据管理难题。它提供了统一的命名服务、状态同步服务以及集群管理功能，有效提升了分布式系统的可靠性和可维护性。此外，Zookeeper还支持配置管理和临时节点管理，进一步增强了其在复杂分布式环境中的应用价值。 ... [详细]

蜡笔小新 2024-11-04 15:48:51
config
Hadoop 2.6 日志文件解析与MapReduce日志管理深入探讨

Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成，其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法，并详细介绍了 MapReduce 日志管理的最佳实践，旨在帮助用户更好地理解和优化日志处理流程，提高系统运维效率。 ... [详细]

蜡笔小新 2024-11-03 16:23:38
rsa
构建高可用性Spark分布式集群：大数据环境下的最佳实践

在构建高可用性的Spark分布式集群过程中，确保所有节点之间的无密码登录是至关重要的一步。通过在每个节点上生成SSH密钥对（使用 `ssh-keygen -t rsa` 命令并保持默认设置），可以实现这一目标。此外，还需将生成的公钥分发到所有节点的 `~/.ssh/authorized_keys` 文件中，以确保节点间的无缝通信。为了进一步提升集群的稳定性和性能，建议采用负载均衡和故障恢复机制，并定期进行系统监控和维护。 ... [详细]

蜡笔小新 2024-11-02 14:18:50
list
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
client
HDFS基础知识与数据读写机制详解

本文详细介绍了HDFS的基础知识及其数据读写机制。首先，文章阐述了HDFS的架构，包括其核心组件及其角色和功能。特别地，对NameNode进行了深入解析，指出其主要负责在内存中存储元数据、目录结构以及文件块的映射关系，并通过持久化方案确保数据的可靠性和高可用性。此外，还探讨了DataNode的角色及其在数据存储和读取过程中的关键作用。 ... [详细]

蜡笔小新 2024-10-30 11:58:25
go
分布式一致性算法：Paxos 的企业级实战

一、简介首先我们这个平台是ES专题技术的分享平台，众所周知，ES是一个典型的分布式系统。在工作和学习中，我们可能都已经接触和学习过多种不同的分布式系统了，各 ... [详细]

蜡笔小新 2024-10-21 16:29:21
go
Hadoop + Spark安装(三) —— 调hadoop

***************************测试hadoop及问题跟进***************************执行以下语句报错datahadoop-2.9. ... [详细]

蜡笔小新 2024-10-17 11:56:27
go
【原创】七、Hadoop 2.5.2+zookeeper高可用部署

一、原理（四大要点）（1）保证元数据一致（edits）namenode（fsimage edits）a、NFSb、journalnodec、zk（2）只有一台namenode对外提 ... [详细]

蜡笔小新 2024-10-15 12:25:58

美好时光33_862

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章