热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

大数据|Hadoop部署安装和启动以及目录结构介绍(三)

一、hadoop的部署安装1、安装JDK:下载jdk,解压,配置环境变量2、安装hadoop:下载安装包,解压利用tar-zxvf把hadoop的jar包放到指定的目录下。tar-

一、hadoop的部署安装

1、安装JDK:下载jdk,解压,配置环境变量

2、安装hadoop:下载安装包,解压

利用tar -zxvf把hadoop的jar包放到指定的目录下。

tar -zxvf /home/software/hadoop-2.4.1.tar.gz

-z:以gz结尾的文件就是用gzip压缩的结果。与gzip相对的就是gunzip,这个参数的作用就是用来调用gzip。

-x:–extract,–get解压文件

-v:显示操作过程,这个参数很常用

-f:使用文档名,注意,在f之后要立即接文档名,不要再加其他参数

二、修改hadoop配置文件,为启动hadoop做准备

1、先熟悉下hadoop整个的目录结构

1)bin:Hadoop最基本的管理脚本和使用脚本的目录,这些脚本是sbin目录下管理脚本的基础实现,用户可以直接使用这些脚本管理和使用Hadoop。

2)sbin:Hadoop管理脚本所在的目录,主要包含HDFS和YARN中各类服务的启动/关闭脚本。

3)etc:Hadoop配置文件所在的目录,包括core-site.xml、hdfs-site.xml、mapred-site.xml等从Hadoop1.0继承而来的配置文件和yarn-site.xml等Hadoop2.0新增的配置文件。

4)本地平台相关库(include、lib、libexec),include:对外提供的编程库头文件(具体动态库和静态库在lib目录中),这些头文件均是用C++定义的,通常用于C++程序访问HDFS或者编写MapReduce程序。lib:该目录包含了Hadoop对外提供的编程动态库和静态库,与include目录中的头文件结合使用。libexec:各个服务对用的shell配置文件所在的目录,可用于配置日志输出、启动参数(比如JVM参数)等基本信息。

5)share:Hadoop各个模块编译后的jar包所在的目录。

《大数据|Hadoop部署安装和启动以及目录结构介绍(三)》 hadoop的目录结构

2、hadoop重点目录介绍及修改

1)etc/hadoop/hadoop-env.sh

配置etc/hadoop/hadoop-env.sh文件,修改为你的jdk的安装位置。

《大数据|Hadoop部署安装和启动以及目录结构介绍(三)》 hadoop-env.sh

2)etc/hadoop/core-site.xml

编辑文件etc/hadoop/core-site.xml文件,指定默认文件系统和工作空间(现在该路径下还没有tmp文件夹,执行完hdfs格式化后便可看到相关文件)。

《大数据|Hadoop部署安装和启动以及目录结构介绍(三)》 core-site.xml

3)etc/hadoop/hdfs-site.xml

编辑文件etc/hadoop/hdfs-site.xml文件,设置文件副本数,也就是文件分割成块后,要复制块个数(由于此处就本机一个节点,伪分布式,所以就配置为1,文件本身,不需要副本)。

《大数据|Hadoop部署安装和启动以及目录结构介绍(三)》 hdfs-site.xml

4)etc/hadoop/mapred-site.xml

编辑文件etc/hadoop/mapred-site.xml文件,此文件其实不存在,是把存在的mapred-site.xml.template修改为mapred-site.xml(mv mapred-site.xml.template mapred-site.xml),用于指定资源调度框架。

《大数据|Hadoop部署安装和启动以及目录结构介绍(三)》 mapred-site.xml

5)etc/hadoop/yarn-site.xml

编辑文件etc/hadoop/yarn-site.xml文件,yarn也是分布式管理的,所以配置一个主服务器,然后还要配置中间数据调度的机制。

《大数据|Hadoop部署安装和启动以及目录结构介绍(三)》 yarn-site.xml

6)配置masters和slaves主从结点

配置/masters和/slaves来设置主从结点,注意最好使用主机名,并且保证机器之间通过主机名可以互相访问,每个主机名一行。

《大数据|Hadoop部署安装和启动以及目录结构介绍(三)》 masters和slaves

总结:配置结束,把配置好的hadoop文件夹拷贝到其他集群的机器中,并且保证上面的配置对于其他机器而言正确,例如:如果其他机器的Java安装路径不一样,要修改etc/hadoop/hadoop-env.sh。

三、启动hadoop

1)格式化hdfs

在bin/hadoop中执行 ./hadoop namenode -format,或如下图直接执行。

《大数据|Hadoop部署安装和启动以及目录结构介绍(三)》 格式化hdfs

2)启动hdfs

mapreduce不是服务,只是一个库,所以不需要启动。hdfs和yarn是相互独立的服务,可以单独启动,也可以使用hadoop的脚本自动化启动。

(1)方法一:分别启动

启动hdfs的脚本在sbin/hadoop-daemon.sh中,手动启动方式如下:

《大数据|Hadoop部署安装和启动以及目录结构介绍(三)》 手动启动hdfs

启动yarn的脚本在sbin/yarn-daemon.sh中,手动启动方式如下:

《大数据|Hadoop部署安装和启动以及目录结构介绍(三)》 手动启动yarn

(2)方法二:自动化启动

启动hdfs,sbin/start-dfs.sh

启动yarn,sbin/start-yarn.sh

(3)方法三:

同时启动hdfs和yarn,sbin/start-all.sh


推荐阅读
  • 深入理解Spark框架:RDD核心概念与操作详解
    RDD是Spark框架的核心计算模型,全称为弹性分布式数据集(Resilient Distributed Dataset)。本文详细解析了RDD的基本概念、特性及其在Spark中的关键操作,包括创建、转换和行动操作等,帮助读者深入理解Spark的工作原理和优化策略。通过具体示例和代码片段,进一步阐述了如何高效利用RDD进行大数据处理。 ... [详细]
  • H5技术实现经典游戏《贪吃蛇》
    本文将分享一个使用HTML5技术实现的经典小游戏——《贪吃蛇》。通过H5技术,我们将探讨如何构建这款游戏的两种主要玩法:积分闯关和无尽模式。 ... [详细]
  • 我的读书清单(持续更新)201705311.《一千零一夜》2006(四五年级)2.《中华上下五千年》2008(初一)3.《鲁滨孙漂流记》2008(初二)4.《钢铁是怎样炼成的》20 ... [详细]
  • 菜鸟物流用户增长部现正大规模招聘P6及以上级别的JAVA工程师,提供年后入职选项。 ... [详细]
  • 深入理解云计算与大数据技术
    本文详细探讨了云计算与大数据技术的关键知识点,包括大数据处理平台、社会网络大数据、城市大数据、工业大数据、教育大数据、数据开放与共享的应用,以及搜索引擎与Web挖掘、推荐技术的研究及应用。文章还涵盖了云计算的基础概念、特点和服务类型分类。 ... [详细]
  • 电商高并发解决方案详解
    本文以京东为例,详细探讨了电商中常见的高并发解决方案,包括多级缓存和Nginx限流技术,旨在帮助读者更好地理解和应用这些技术。 ... [详细]
  • Hadoop平台警告解决:无法加载本机Hadoop库的全面应对方案
    本文探讨了在Hadoop平台上遇到“无法加载本机Hadoop库”警告的多种解决方案。首先,通过修改日志配置文件来忽略该警告,这一方法被证明是有效的。其次,尝试指定本地库的路径,但未能解决问题。接着,尝试不使用Hadoop本地库,同样没有效果。然后,通过替换现有的Hadoop本地库,成功解决了问题。最后,根据Hadoop的源代码自行编译本地库,也达到了预期的效果。以上方法适用于macOS系统。 ... [详细]
  • Zookeeper作为Apache Hadoop生态系统中的一个重要组件,主要致力于解决分布式应用中的常见数据管理难题。它提供了统一的命名服务、状态同步服务以及集群管理功能,有效提升了分布式系统的可靠性和可维护性。此外,Zookeeper还支持配置管理和临时节点管理,进一步增强了其在复杂分布式环境中的应用价值。 ... [详细]
  • Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成,其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法,并详细介绍了 MapReduce 日志管理的最佳实践,旨在帮助用户更好地理解和优化日志处理流程,提高系统运维效率。 ... [详细]
  • 构建高可用性Spark分布式集群:大数据环境下的最佳实践
    在构建高可用性的Spark分布式集群过程中,确保所有节点之间的无密码登录是至关重要的一步。通过在每个节点上生成SSH密钥对(使用 `ssh-keygen -t rsa` 命令并保持默认设置),可以实现这一目标。此外,还需将生成的公钥分发到所有节点的 `~/.ssh/authorized_keys` 文件中,以确保节点间的无缝通信。为了进一步提升集群的稳定性和性能,建议采用负载均衡和故障恢复机制,并定期进行系统监控和维护。 ... [详细]
  • HBase在金融大数据迁移中的应用与挑战
    随着最后一台设备的下线,标志着超过10PB的HBase数据迁移项目顺利完成。目前,新的集群已在新机房稳定运行超过两个月,监控数据显示,新集群的查询响应时间显著降低,系统稳定性大幅提升。此外,数据消费的波动也变得更加平滑,整体性能得到了显著优化。 ... [详细]
  • 本文详细介绍了HDFS的基础知识及其数据读写机制。首先,文章阐述了HDFS的架构,包括其核心组件及其角色和功能。特别地,对NameNode进行了深入解析,指出其主要负责在内存中存储元数据、目录结构以及文件块的映射关系,并通过持久化方案确保数据的可靠性和高可用性。此外,还探讨了DataNode的角色及其在数据存储和读取过程中的关键作用。 ... [详细]
  • 分布式一致性算法:Paxos 的企业级实战
    一、简介首先我们这个平台是ES专题技术的分享平台,众所周知,ES是一个典型的分布式系统。在工作和学习中,我们可能都已经接触和学习过多种不同的分布式系统了,各 ... [详细]
  • Hadoop + Spark安装(三) —— 调hadoop
    ***************************测试hadoop及问题跟进***************************执行以下语句报错datahadoop-2.9. ... [详细]
  • 【原创】七、Hadoop 2.5.2+zookeeper高可用部署
    一、原理(四大要点)(1)保证元数据一致(edits)namenode(fsimage edits)a、NFSb、journalnodec、zk(2)只有一台namenode对外提 ... [详细]
author-avatar
美好时光33_862
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有