热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Hadoop体系_集团架构

Hadoop体系_集团架构目录2.1Hadoop简介2.1.1Hadoop由来2.1.2Hadoop发展历程2.1.3Hadoop生态系统2.2Hadoop的体系架构2.2.1分布

目录

2.1 Hadoop简介

2.1.1 Hadoop由来

2.1.2 Hadoop发展历程

 2.1.3 Hadoop生态系统

 2.2 Hadoop的体系架构

 2.2.1 分布式文件系统HDFS

2.2.2 分布式计算框架MapReduce 

 2.2.3 分布式资源调度系统YARN

2.  2.  4 三大发行版本



2.1 Hadoop简介

自从大数据的概念被提出后,出现了很多相关技术,其中对大数据发展最有影响力的就是开源分布式计算平台Hadoop,它就像软件发展史上的Window、Linux、Java一样,它的出现给接下来的大数据技术发展带来了巨大的影响。很多知名公司都加入Hadoop相关项目的开发中,如Facebook、Yahoo等,围绕大数据Hadoop技术产生了一系列大数据的相关技术

如 Spark、Hive、HCatalog、HBase、Zookeeper、Oozie、Pig和Sqoop等,这些项目组成 了大数据技术的开源生态圈,开源的Hadoop项目极大的促进了大数据技术在很多行业的应用发展

本章将详细介绍hadoop的由来和相关项目,最新的hadoop2.0的体系架构,以及在学习hadoop前,必须掌握的技术基础(Java语言和编程、关系型数据库、Linux操作系统等)

211 Hadoop由来

Hadoop体系_集团架构

Hadoop起源于Google的三大论文:

GFS:Google的分布式文件系统Google File System

MapReduce:Google的MapReduce开源分布式并行计算框架

BigTable:一个大型的分布式数据库

演变关系

GFS—->HDFS

Google MapReduce—->Hadoop MapReduce

BigTable—->HBase

212 Hadoop发展历程

Hadoop体系_集团架构

 213 Hadoop生态系统

Hadoop体系_集团架构

 图中涉及的技术名词解释如下:

1、Sqoop:Sqoop是一款开源的工具,主要用于在Hadoop、Hive与传统的数据库(MySql)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle 等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

2、Flume:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。

3、Kafka:Kafka是一种高吞吐量的分布式发布订阅消息系统,有如下特性:

        (1)通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。

        (2)高吞吐量:即使是非常普通的硬件Kafka也可以支持每秒数百万的消息。

        (3)支持通过Kafka服务器和消费机集群来分区消息。

        (4)支持Hadoop并行数据加载。

4、Storm:Storm用于“连续计算”,对数据流做连续查询,在计算时就将结果以流的形式输出给用户。

5、Spark:Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。

6、Oozie:Oozie是一个管理Hadoop作业(job)的工作流程调度管理系统。

7、Hbase:HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。

8、Hive:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

10、R语言:R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。

11、Mahout:Apache Mahout是个可扩展的机器学习和数据挖掘库。

12、ZooKeeper:Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、 分布式同步、组服务等。

ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。



 2.2 Hadoop的体系架构

Hadoop体系_集团架构

 221 分布式文件系统HDFS

Hadoop体系_集团架构

 

HDFS 是一种分布式文件系统,为在商用硬件上运行而设计。HDFS具有高度容错能力,旨在部署在低成本的硬件上。HDFS提供对应用程序数据的高吞吐量访问,适用于具有大型数据集的应用程序

HDFS采用 Master/Slave 的架构来存储数据,该架构主要由4个部分组成


  1. Client:切片,用来与NameNode交互

  2. NameNOde节点

  3. DataNode节点

  4. SecondaryNameNode节点


2.2.2 分布式计算框架MapReduce 

Hadoop MapReduce是一个软件框架,用于轻松编写应用程序,以可靠容错的方式在大型集群的商用硬件上并行处理大量数据。

MapReduce作业通常将输入数据集拆分为独立的块,这些块由Map任务以完全并行的方式处理。框架对地图的输出进行排序然后输入到Reduce任务中。

MapReduce将计算过程分为两个阶段:Map和Reduce


  1. Map阶段并行处理输入数据

  2. Reduce阶段对Map结果进行汇总

Hadoop体系_集团架构 

 223 分布式资源调度系统YARN

Hadoop体系_集团架构

 

从YARN的架构图来看,它主要由ResourceManager和ApplicationMaster、NodeManager、 ApplicationMaster和Container等组件组成

ResourceManager(RM)

YARN分层结构的本质是ResourceManager。这个实体控制整个集群并管理应用程序向基础计算资源的分配。

ResourceManager 将各个资源部分(计算、内存、带宽等)精心安排给基础NodeManager(YARN 的每节点代理)。ResourceManager还与 ApplicationMaster 一起分配资源,与NodeManager 一起启动和监视它们的基础应用程序。在此上下文中,ApplicationMaster 承担了以前的 TaskTracker 的一些角色,ResourceManager 承担了 JobTracker 的角色。


  1. 处理客户端请求;

  2. 启动或监控ApplicationMaster;

  3. 监控NodeManager;

  4. 资源的分配与调度。

NodeManager(NM)

 NodeManager管理一个YARN集群中的每个节点。NodeManager提供针对集群中每个节点的服务,从监督对一个容器的终生管理到监视资源和跟踪节点健康。MRv1通过插槽管理Map和Reduce任务的执行,而NodeManager 管理抽象容器,这些容器代表着可供一个特定应用程序使用的针对每个节点的资源。YARN继续使用HDFS层。它的主要 NameNode用于元数据服务,而DataNode用于分散在一个集群中的复制存储服务。


  1. 单个节点上的资源管理;

  2. 处理来自ResourceManager上的命令;

  3. 处理来自ApplicationMaster上的命令。

ApplicationMaster(AM)  ApplicationMaster管理一个在YARN内运行的应用程序的每个实例。ApplicationMaster 负责协调来自 ResourceManager 的资源,并通过 NodeManager 监视容器的执行和资源使用(CPU、内存等的资源 分配)。请注意,尽管目前的资源更加传统(CPU 核心、内存),但未来会带来基于手头任务的新资源 类型(比如图形处理单元或专用处理设备)。从 YARN 角度讲,ApplicationMaster 是用户代码,因此 存在潜在的安全问题。YARN 假设 ApplicationMaster 存在错误或者甚至是恶意的,因此将它们当作无特权的代码对待。


  1. 负责数据的切分;

  2. 为应用程序申请资源并分配给内部的任务;

  3. 任务的监控与容错

Container

对任务运行环境进行抽象,封装CPU、内存等多维度的资源以及环境变量、启动命令等任务运行相关的信息。比如内存、CPU、磁盘、网络等,当AM向RM申请资源时,RM为AM返回的资源便是用Container表示的。YARN会为每个任务分配一个Container,且该任务只能使用该Container中描述的资源。

2.  2.  4 三大发行版本

Hadoop三大发行版本:Apache、Cloudera、Hortonworks。

Apache版本:最原始(最基础)的版本,对于入门学习最好。

Cloudera:在大型互联网企业中用的较多。

Hortonworks:文档较好。

1. Apache Hadoop

官网地址:http://hadoop.apache.org/releases.html 

下载地址:https://archive.apache.org/dist/hadoop/common/

2. Cloudera Hadoop

官网地址:https://www.cloudera.com/downloads/cdh/5-10-0.html 

下载地址:http://archive-primary.cloudera.com/cdh5/cdh/5/

(1)2008年成立的Cloudera是最早将Hadoop商用的公司,为合作伙伴提供Hadoop的商用解决方案,主要是包括支持、咨询服务、培训。

22009Hadoop的创始人Doug Cutting也加盟Cloudera公司Cloudera产品主要为CDH

Cloudera Manager,Cloudera Support

(3CDH是Cloudera的Hadoop发行版,完全开源,比Apache Hadoop在兼容性,安全性,稳定性上有所增强。

(4Cloudera Manager是集群的软件分发及管理监控平台,可以在几个小时内部署好一个Hadoop集群,并对集群的节点及服务进行实时监控。Cloudera Support即是对Hadoop的技术支持。

(5Cloudera的标价为每年每个节点4000美元。Cloudera开发并贡献了可实时处理大数据的Impala 项目。

3. Hortonworks Hadoop

官网地址:https://hortonworks.com/products/data-center/hdp/ 

下载地址:Cloudera Enterprise Downloads

(12011年成立的Hortonworks是雅虎与硅谷风投公司Benchmark Capital合资组建。

2公司成立之初就吸纳了大约25名至30名专门研究Hadoop的雅虎工程师,上述工程师均在2005年开始协助雅虎开发Hadoop,贡献了Hadoop80%的代码。

3雅虎工程副总裁、雅虎Hadoop开发团队负责人Eric Baldeschwieler出任Hortonworks的首席执行官。

4Hortonworks的主打产品是Hortonworks Data Platform(HDP),也同样是100%开源的产品,HDP除常见的项目外还包括了Ambari,一款开源的安装和管理系统。

5HCatalog,一个元数据管理系统,HCatalog现已集成到Facebook开源的Hive中。Hortonworks 的Stinger开创性的极大的优化了Hive项目。Hortonworks为入门提供了一个非常好的,易于使用的沙盒。

6Hortonworks开发了很多增强特性并提交至核心主干,这使得Apache Hadoop能够在包括Window Server和Windows Azure在内的Microsoft Windows平台上本地运行。定价以集群为基础,每10个节点每年为12500美元。目前,HDP已被CDH收购。


推荐阅读
  • Kylin 单节点安装
    软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]
  • ZooKeeper 学习
    前言相信大家对ZooKeeper应该不算陌生。但是你真的了解ZooKeeper是个什么东西吗?如果别人面试官让你给他讲讲ZooKeeper是个什么东西, ... [详细]
  • Hadoop源码解析1Hadoop工程包架构解析
    1 Hadoop中各工程包依赖简述   Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。   GoogleCluster:ht ... [详细]
  • 我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]
  • Java开发实战讲解!字节跳动三场技术面+HR面
    二、回顾整理阿里面试题基本就这样了,还有一些零星的问题想不起来了,答案也整理出来了。自我介绍JVM如何加载一个类的过程,双亲委派模型中有 ... [详细]
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • 一次上线事故,30岁+的程序员踩坑经验之谈
    本文主要介绍了一位30岁+的程序员在一次上线事故中踩坑的经验之谈。文章提到了在双十一活动期间,作为一个在线医疗项目,他们进行了优惠折扣活动的升级改造。然而,在上线前的最后一天,由于大量数据请求,导致部分接口出现问题。作者通过部署两台opentsdb来解决问题,但读数据的opentsdb仍然经常假死。作者只能查询最近24小时的数据。这次事故给他带来了很多教训和经验。 ... [详细]
  •     这里使用自己编译的hadoop-2.7.0版本部署在windows上,记得几年前,部署hadoop需要借助于cygwin,还需要开启ssh服务,最近发现,原来不需要借助cy ... [详细]
  • Hadoop2.6.0 + 云centos +伪分布式只谈部署
    3.0.3玩不好,现将2.6.0tar.gz上传到usr,chmod-Rhadoop:hadophadoop-2.6.0,rm掉3.0.32.在etcp ... [详细]
  • MR程序的几种提交运行模式本地模型运行1在windows的eclipse里面直接运行main方法,就会将job提交给本地执行器localjobrunner执行-- ... [详细]
  • 《Spark核心技术与高级应用》——1.2节Spark的重要扩展
    本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章,第1.2节Spark的重要扩展,作者于俊向海代其锋马海平,更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]
  •        在搭建Hadoop环境之前,请先阅读如下博文,把搭建Hadoop环境之前的准备工作做好,博文如下:       1、CentOS6.7下安装JDK,地址:http:b ... [详细]
  • 前言折腾了一段时间hadoop的部署管理,写下此系列博客记录一下。为了避免各位做部署这种重复性的劳动,我已经把部署的步骤写成脚本,各位只需要按着本文把脚本执行完,整个环境基本就部署 ... [详细]
  • SparkOnYarn在YARN上启动Spark应用有两种模式。在cluster模式下,Spark驱动器(driver)在YARNApp ... [详细]
  • Hadoop之Yarn
    目录1Hadoop1.x和Hadoop2.x架构区别2Yarn概述3Yarn基本架构4Yarn工作机制5作业提交全过程6资源调度器7任务的推测执行1Hadoop1.x和Hadoo ... [详细]
author-avatar
手机用户2502920725
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有