热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

10.2Hadoop的介绍、搭建、环境

1.1Hadoop产生背景HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的

1.1 Hadoop产生背景

  1. HADOOP最早起源于NutchNutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。
  2. 2003年、2004谷歌发表的两篇论文为该问题提供了可行的解决方案。(谷歌为现代技术做了十分大的贡献!!)

——分布式文件系统(GFS),可用于处理海量网页的存储

——分布式计算框架MAPREDUCE,可用于处理海量网页的索引计算问题。

Nutch的开发人员完成了相应的开源实现HDFSMAPREDUCE,并从Nutch中剥离成为独立项目HADOOP,到20081月,HADOOP成为Apache***项目,迎来了它的快速发展期。

1.2 什么是HADOOP

  1. HADOOPapache旗下的一套开源软件平台(apache软件几乎都开源)
  2. HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理
  3. HADOOP的核心组件有
    1. HDFS(分布式文件系统)
    2. YARN(运算资源调度系统)
    3. MAPREDUCE(分布式  运算编程框架)

1.3 HADOOP在大数据、云计算中的位置和关系

1. 云计算是分布式计算、并行计算、网格计算、多核计算、网络存储、虚拟化、负载均衡等传统计算机技术和互联网技术融合发展的产物。借助IaaS(基础设施即服务)PaaS(平台即服务)SaaS(软件即服务)等业务模式,把强大的计算能力提供给终端用户。 

2. 现阶段,云计算的两大底层支撑技术虚拟化”和“大数据技术。 

3. HADOOP则是云计算的PaaS层的解决方案之一,并不等同于PaaS,更不等同于云计算本身。

1.4 Hadoop生态系统

10.2 Hadoop的介绍、搭建、环境

HDFS:分布式文件系统hdfsMAPREDUCEyarn)元老级大数据处理技术框架,擅长离线数据分析

MAPREDUCE:分布式运算程序开发框架

HIVE:基于大数据技术(文件系统+运算框架)的SQL数据仓库工具,使用方便,功能丰富。但基于MR会有很大的延迟。

HBASE:基于HADOOP的分布式海量数据库,离线分析和在线业务通吃, 是 Google Bigtable 的另一套开源实现。

ZOOKEEPER:分布式协调服务基础组件,提供的功能包括:配置维护、名字服务、 分布式同步、心跳、组服务等

Mahout:基于mapreduce/spark/flink等分布式运算框架的机器学习算法库提供可扩展的计算机学习领域的算法实现,旨在帮助开发人员更加快捷地开发智能 应用程序。

Oozie:工作流调度框架

Sqoop:数据导入导出工具

Flume:日志数据采集框架

Avro: 基于JSON的数据序列化的系统。

Cassandra: 一套分布式,非关系型存储系统,类似Google - BigTable。

Chukwa: 用于监控大型分布式系统的数据采集系统。

Pig:提供一个并行执行的数据流框架。

Spark:类似MapReduce的通用并行框架,继承了其的分布式优势,只是中间输出结果存储 于内存中,提供了相对实时性的处理能力

Tez:新的一套分布式执行框架,主要以开发人员为最终用户构建性能更快、扩展性更强的应 用程序。

1.5Hadoop大数据项目流程图

10.2 Hadoop的介绍、搭建、环境

1) 数据采集:定制开发采集程序,或使用开源框架FLUME

2) 数据预处理:定制开发mapreduce程序运行于hadoop集群

3) 数据仓库技术:基于hadoop之上的Hive

4) 数据导出:基于hadoopsqoop数据导入导出工具

5) 数据可视化:定制开发web程序或使用kettle等产品

6) 整个过程的流程调度:hadoop生态圈中的oozie工具或其他类似开源产品

1.6Hadoop集群的安装

提前准备:虚拟机的正常安装,网卡启动成功,Xshell和ftp软件。jdk的压缩包,和Hadoop的压缩包。

HadoopMaster1     NameNode  SecondaryNameNode     192.168.242.110

HadoopYarn       ResourceManager         192.168.242.111

HadoopSlaver1     DataNode    NodeManager     192.168.242.112

HadoopSlaver2     DataNode    NodeManager     192.168.242.113

HadoopSlaver3     DataNode    NodeManager     192.168.242.114

1.6.1上传jdk安装包(用xftp上传文件)

解压到相应目录:rpm -ivh ./xxxxx.jdk  ./user/java

编辑环境变量:为了在各个目录下能运行JAVA代码

vim /etc/profile
export JAVA_HOME=/usr/java/jvm/jdk1.7.0_79
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

wq后保存: source  /etc/profile 配置更新

echo java 检验 或者 javac java-version

1.6.2 Hadoop的安装

1、解压到相应目录:cd /usr/local     tar –zxvf ./hadoop-2.7.2.tar.gz

     把目录修改为hadoop   mv hadoop-2... hadoop
2、修改hadoop-env.sh
     vim  /usr/local/hadoop/etc/hadoop/hadoop-env.sh

     修改export JAVA_HOME 语句为 export JAVA_HOME=/usr/java/default

3、修改core-site.xml 配置端口

cd /usr/local/hadoop/etc/hadoop
vi core-site.xml 


  
    hadoop.tmp.dir
    file://usr/hadoop/hadoop-2.6.4/tmp  //文件存储的目录。需要创建
  

  
    fs.defaultFS
    hdfs://localhost:9000 //集群Master的端口号
  

###修改secondaryNamenode中的core-site.xml 配置冷备份
  
    fs.checkpoint.period
    60
  


    fs.checkpoint.size
    67108864
  

  
    fs.checkpoint.dir
    file:/usr/hadoop/hadoop-2.8.0/dfs/fsimage/ //需要把映射文件考到这个目录
  

  
    fs.checkpoint.edits.ir
    file:/usr/hadoop/hadoop-2.8.0/dfs/edits/

4、修改集群hdfs-site.xml配置

vi  hdfs-site.xml

  
    dfs.namenode.secondary.http-address  //冷备份
    HadoopMaster1 :50090
  

  

    dfs.namenode.name.dir

    /home/hadoop/data/name//主文件的存储目录需要在相应目录创建

  

  

    dfs.datanode.data.dir

    /home/hadoop/data/data//data文件的存储目录需要在相应目录创建

  

  

    dfs.replication

    3

  

  

    dfs.secondary.http.address

    hdp-node-01:50090

  

5、配hadoop的环境变量 把/usr/hadoop/bin和/usr/hadoop/sbin设到PATH中

  vi /etc/profile
  export PATH=$PATH:/usr/hadoop/bin:/usr/hadoop/sbin
  更新:source etc/profile

测试hadoop命令是否可以直接执行,任意目录下敲hadoop

1.6.3Yarn的搭建

 配置计算调度系统Yarn和计算引擎Map/Reduce
1  namenode上配置 mapred-site.xml

  mapreduce.framework.name
  yarn

2 yarn-site.xml的配置


  yarn.resourcemanager.hostname
  master

 
  yarn.nodemanager.aux-services 
  mapreduce_shuffle 
 

  yarn.nodemanager.auxservices.mapreduce.shuffle.class
  org.apache.hadoop.mapred.ShuffleHandler

3启动yarn集群start-yarn.sh
4 jps观察启动结果

1.6.4搭建五台机器,集群

1、关闭虚拟机,完全克隆复制5份(一个个启动 修改IP和hostname)

  分别修改虚拟机的ip vim/etc/sysconfig/network-scripts/ifcfg-env33跟之前的图对应

  修改hostname  vim /etc/hostname  对应之前的名 

2、确认互相能够ping通,用ssh登陆

在主机创建 .shh目录 

ssh-keygen  -t rsa

ssh-copy-id (子机IP和自己IP)一直确定完成免密,hosts修改可以改名

3,同时修改所有虚拟机的/etc/hosts,确认使用名字可以ping通

HadoopMaster1      192.168.242.110

HadoopYarn       192.168.242.111

HadoopSlaver1     192.168.242.112

HadoopSlaver2    192.168.242.113

HadoopSlaver3     192.168.242.114

4,修改master上/etc/hadoop/slaves文件,每一个slave占一行(子机的名)

HadoopSlaver1      

HadoopSlaver2    

HadoopSlaver3

现在集群namenode  datanode已经可以启动了

使用start-dfs.sh启动集群,jps并观察结果

配置文件详细信息以后慢慢搭建时会慢慢更改。

现在这个集群完全搭建完毕,过程较长。建议初学者一点一点搭环境。配置文件可能会有问题。后续慢慢更改。

 

 

  

  

 


推荐阅读
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • Hadoop源码解析1Hadoop工程包架构解析
    1 Hadoop中各工程包依赖简述   Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。   GoogleCluster:ht ... [详细]
  •        在搭建Hadoop环境之前,请先阅读如下博文,把搭建Hadoop环境之前的准备工作做好,博文如下:       1、CentOS6.7下安装JDK,地址:http:b ... [详细]
  • 我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]
  • 当计算任务越来越多,作业提交越来越多,企业普通的做法是,在原有的系统架构上,不停地往上堆积硬件或者加服务器。的确,hadoop设计上的优秀和可扩展性可以方便的 ... [详细]
  • 介绍怎样在IntellijIdea中通过创建mavenproject配置MapReduce的编程环境。一、软件环境我使用的软件版本号例如以下:IntellijIdea2017.1M ... [详细]
  • Maven构建Hadoop,
    Maven构建Hadoop工程阅读目录序Maven安装构建示例下载系列索引 序  上一篇,我们编写了第一个MapReduce,并且成功的运行了Job,Hadoop1.x是通过ant ... [详细]
  • mapreduce源码分析总结
    这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型,它最初是由Google工程师设计并实现的ÿ ... [详细]
  • 【转】腾讯分析系统架构解析
    TA(TencentAnalytics,腾讯分析)是一款面向第三方站长的免费网站分析系统,在数据稳定性、及时性方面广受站长好评,其秒级的实时数据更新频率也获得业界的认可。本文将从实 ... [详细]
  • 《Spark核心技术与高级应用》——1.2节Spark的重要扩展
    本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章,第1.2节Spark的重要扩展,作者于俊向海代其锋马海平,更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]
  • 本文_大数据之非常详细Sqoop安装和基本操作
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了大数据之非常详细Sqoop安装和基本操作相关的知识,希望对你有一定的参考价值。大数据大数据之 ... [详细]
  • Hadoop之Yarn
    目录1Hadoop1.x和Hadoop2.x架构区别2Yarn概述3Yarn基本架构4Yarn工作机制5作业提交全过程6资源调度器7任务的推测执行1Hadoop1.x和Hadoo ... [详细]
  • Hadoop——Hive简介和环境配置
    一、Hive的简介和配置1.简介Hive是构建在Hadoop之上的数据操作平台lHive是一个SQL解析引擎,它将SQL转译成MapReduce作业,并 ... [详细]
  • 架构升级给DolphScheduler带来2~3倍性能提升
     引言大数据任务调度作为大数据建设中的核心基础设施,在经过社区用户们长期的使用中,不少用户对调度也提出了很多新的要求,为此,ApacheDolphinScheduler(Incub ... [详细]
  • 前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出, ... [详细]
author-avatar
俣小沫-WU
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有