热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

hadoop基础----hadoop实战(六)-----hadoop管理工具---ClouderaManager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多



我们在之前的文章中已经初步介绍了Cloudera。

hadoop基础----hadoop实战(零)-----hadoop的平台版本选择

从版本选择这篇文章中我们了解到除了hadoop官方版本外很多公司都对hadoop进行了改版发布,其中Cloudera就是其中最成型的发行版本,并且配备了相应的管理工具。


本篇文章我们就来学习Cloudera的相关知识。


什么是CDH

Cloudera's Distribution for Hadoop(即Cloudera公司发布的Hadoop,简称CDH)基于最新稳定版本的Apache Hadoop,有许多补丁、向后移植和更新。Cloudera公司以多种不同的形式进行发布,包括源码和二进制tar文件、RPM ,  Debian包、VMware image和在云上运行CDH的脚本。CDH是在Apache 2.0许可下发布的自由软件,用户可从http: //www. cloudera. com/hadoop 获得。

为了简化部署,Cloudera还在公共的yum和apt存储库中提供了若干个包,因此只用一条指令就能在计算机上安装和配置Hadoop。即使是新手用户,不借助手册也可成功安装整个Hadoop集群。






CDH支持的组件

CDH管理着跨组件版本,并提供一个稳定的平台供许多包一起运行。以CDH3为例,它包含下列包,其中许多包都是需要我们去学习掌握的:
    HDFS—自我修复的分布式文件系统
    MapReduce—强大的并行数据处理框架
    Hadoop Common—一组支持Hadoop子项目的工具
    HBase—支持随机读/写访问的Hadoop数据库
    Hive—在大数据集合上的类SQL查询和表
    Pig—数据流语言和编译器
    Oozie针对互相依赖的Hadoop作业的工作流
    Sqoop利用集成到Hadoop的数据库和数据仓库
    Flume—高可靠、可配置的数据流集合
    Zookeeper—面向分布式应用的协调服务
    Hue—可视化Hadoop应用的用户接口框架和SDK

目前最新版本的CDH包含了哪些组件可查看(当然越新版本的支持的组件越多)

http://www.cloudera.com/developers/inside-cdh.html


组件的详细版本号只能在安装完成后才能查看出来,我目前没有在官网中找到对应表。



至于之前版本哪些组件最少需要哪个CDH的版本可查看

http://www.cloudera.com/documentation/enterprise/release-notes/topics/rn_consolidated_pcm.html


要下载CDH,请访问http: //www. cloudera. com/downloads/ 。

更多cloudera的信息可查看官网http://www.cloudera.com/



CDH(Cloudera)与hadoop(apache官方)对比

(1) CDH对Hadoop版本的划分非常清晰,只有两个系列的版本,分别是cdh3和cdh4,分别对应第一代Hadoop(Hadoop 1.0)和第二代Hadoop(Hadoop 2.0),相比而言,Apache版本则混乱得多;比Apache hadoop在兼容性,安全性,稳定性上有增强。  

(2)CDH3版本是基于Apache  hadoop  0.20.2改进的,并融入了最新的patch,CDH4版本是基于Apache hadoop 2.X改进的,CDH总
是并应用了最新Bug修复或者Feature的Patch,并比Apache hadoop同功能版本提早发布,更新速度比Apache官方快。

(3)安全 CDH支持Kerberos安全认证,apache hadoop则使用简陋的用户名匹配认证 

(4)CDH文档清晰,很多采用Apache版本的用户都会阅读CDH提供的文档,包括安装文档、升级文档等。 

(5)CDH支持Yum/Apt包,Tar包,RPM包,CM安装,Cloudera Manager三种方式安装,Apache hadoop只支持Tar包安装。


  注:CDH使用推荐的Yum/Apt包安装时,有以下几个好处: 
1、联网安装、升级,非常方便 
2、自动下载依赖软件包 

3、Hadoop生态系统包自动匹配,不需要你寻找与当前Hadoop匹配的Hbase,Flume,Hive等软件,Yum/Apt会根据当前安装Hadoop版本自动寻找匹配版本的软件包,并保证兼容性。

4、自动创建相关目录并软链到合适的地方(如conf和logs等目录);自动创建hdfs, mapred用户,hdfs用户是HDFS的最高权限用户,mapred用户则负责mapreduce执行过程中相关目录的权限。





CDH版本介绍

Cloudera公司的发行版,我们将该版本称为CDH。

很多新手问的最多的问题是,哪个是收费的,那个是免费的。
Cloudera Express版本是免费的
Cloudera Enterprise是需要购买注册码的


截至目前为止,CDH共有5个版本,其中,前两个已经不再更新,最近的两个,分别是CDH4在Apache Hadoop 2.0.0版本基础上演化而来的),CDH5,它们每隔一段时间便会更新一次。

Cloudera以patch level划分小版本,比如patch level为923.142表示在原生态Apache Hadoop 0.20.2基础上添加了1065个patch(这些patch是各个公司或者个人贡献的,在Hadoop jira上均有记录),其中923个是最后一个beta版本添加的patch,而142个是稳定版发行后新添加的patch。由此可见,patch level越高,功能越完备且解决的bug越多。
Cloudera版本层次更加清晰,且它提供了适用于各种操作系统的Hadoop安装包,可直接使用apt-get或者yum命令进行安装,更加省事。


版本含义介绍
各版本特性查看
http://www.cloudera.com/documentation/enterprise/release-notes/topics/rg_release_notes_cdh.html



安装包下载

各个版本包的地址:
Cloudera文档汇总
http://www.cloudera.com/content/support/en/documentation.html
CDH4、CDH5包汇总
http://archive.cloudera.com/cdh4/
http://archive.cloudera.com/cdh5/
CM4、CM5包汇总
http://archive.cloudera.com/cm4/
http://archive.cloudera.com/cm5/

官网CDH5下载
http://www.cloudera.com/content/ ... /cdh/cdh-5-1-0.html

以前版本地址:
CDH1~CDH3
http://archive-primary.cloudera.com/cdh/




安装方式

CM(Cloudera Manager)有三种安装方式

第一种使用cloudera-manager-installer.bin在线安装

这种安装方式需要所有机子能上网,只要从官网下载cloudera-manager-installer.bin,然后执行这个bin文件,剩下的就是等待下载和安装。但是这个时间不是一般的长,最好吃个饭,睡个觉,最后看到还在安装过程中。而且网速不好的话有可能会中断。但是是最方便的。



第二种使用rpm、yum、apt-get方式在线安装

这种安装方式也是在线安装需要机子能上网,在网上看的有点眼花缭乱,可能是因为我们对yum、apt、rpm了解的不多造成的,对于Linux基础缺乏的,可以多学习一下这几个linux命令,总的来说:由于rpm依赖关系不好,所以产生了yum,而yum和apt则都是Linux的包管理工具,并且解决了包与包的依赖关系。


第三种使用是Tarballs的方式离线安装

这种方式使用的是tar包,跟hadoop的安装方式是一样的。

我们将在下一篇文章中进行详细的安装步骤记录。


官网对于安装的介绍可查看

http://www.cloudera.com/documentation/enterprise/latest/topics/installation_installation.html




安装失败的处理

由于内存不足或者操作步骤不对,缺失等等原因可能导致安装失败,这时候不能直接第二次安装,需要把cloudrea卸载干净才能进行第二次安装。

卸载的详细步骤我们在后续的文章中会详细记录。



目录结构

由于我们大多采用在线安装的方式,所以初学者根本不知道cloudera安装在了什么位置,详细的目录分析我们在后续的文章中会记录。




CDH开发

CDH开发跟之前我们的hadoop开发其实是一样的,没什么大的区别,还是有2种方式:

一种是安装插件在eclipse中,配置好参数后run on hadoop直接在搭建好的集群中运行。

另一种是自己添加需要的包,在本地测试好方法之后打包成jar上传到linux中在hadoop集群中运行。

详细步骤可参考:

hadoop基础----hadoop实战(四)-----myeclipse开发MapReduce---myeclipse搭建hadoop开发环境并运行wordcount




注意事项

cloudera CM的安装比起hadoop集群的安装对硬件的要求更高。如果是在一台机子中的虚拟机中安装,那这台机子内存至少10G,为什么会这么多,如果少于10G是否可以,答案是可以的,但是后面你会遇到各种问题,或许都找不到答案。
对于cloudera-scm-server就需要至少4G的内存,cloudera-scm-agent的内存至少也需要1.5G以上。那么如果你的机器是8G的,还是很吃力的。
在安装的过程中,后面有很多的服务安装遇到问题的可能性是很大的。




参考文章

http://www.aboutyun.com/thread-9219-1-1.html



推荐阅读
author-avatar
红颜弹指老a刹那芳华_623
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有