热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

hadoop基础----hadoop实战(六)-----hadoop管理工具---ClouderaManager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多



我们在之前的文章中已经初步介绍了Cloudera。

hadoop基础----hadoop实战(零)-----hadoop的平台版本选择

从版本选择这篇文章中我们了解到除了hadoop官方版本外很多公司都对hadoop进行了改版发布,其中Cloudera就是其中最成型的发行版本,并且配备了相应的管理工具。


本篇文章我们就来学习Cloudera的相关知识。


什么是CDH

Cloudera's Distribution for Hadoop(即Cloudera公司发布的Hadoop,简称CDH)基于最新稳定版本的Apache Hadoop,有许多补丁、向后移植和更新。Cloudera公司以多种不同的形式进行发布,包括源码和二进制tar文件、RPM ,  Debian包、VMware image和在云上运行CDH的脚本。CDH是在Apache 2.0许可下发布的自由软件,用户可从http: //www. cloudera. com/hadoop 获得。

为了简化部署,Cloudera还在公共的yum和apt存储库中提供了若干个包,因此只用一条指令就能在计算机上安装和配置Hadoop。即使是新手用户,不借助手册也可成功安装整个Hadoop集群。






CDH支持的组件

CDH管理着跨组件版本,并提供一个稳定的平台供许多包一起运行。以CDH3为例,它包含下列包,其中许多包都是需要我们去学习掌握的:
    HDFS—自我修复的分布式文件系统
    MapReduce—强大的并行数据处理框架
    Hadoop Common—一组支持Hadoop子项目的工具
    HBase—支持随机读/写访问的Hadoop数据库
    Hive—在大数据集合上的类SQL查询和表
    Pig—数据流语言和编译器
    Oozie针对互相依赖的Hadoop作业的工作流
    Sqoop利用集成到Hadoop的数据库和数据仓库
    Flume—高可靠、可配置的数据流集合
    Zookeeper—面向分布式应用的协调服务
    Hue—可视化Hadoop应用的用户接口框架和SDK

目前最新版本的CDH包含了哪些组件可查看(当然越新版本的支持的组件越多)

http://www.cloudera.com/developers/inside-cdh.html


组件的详细版本号只能在安装完成后才能查看出来,我目前没有在官网中找到对应表。



至于之前版本哪些组件最少需要哪个CDH的版本可查看

http://www.cloudera.com/documentation/enterprise/release-notes/topics/rn_consolidated_pcm.html


要下载CDH,请访问http: //www. cloudera. com/downloads/ 。

更多cloudera的信息可查看官网http://www.cloudera.com/



CDH(Cloudera)与hadoop(apache官方)对比

(1) CDH对Hadoop版本的划分非常清晰,只有两个系列的版本,分别是cdh3和cdh4,分别对应第一代Hadoop(Hadoop 1.0)和第二代Hadoop(Hadoop 2.0),相比而言,Apache版本则混乱得多;比Apache hadoop在兼容性,安全性,稳定性上有增强。  

(2)CDH3版本是基于Apache  hadoop  0.20.2改进的,并融入了最新的patch,CDH4版本是基于Apache hadoop 2.X改进的,CDH总
是并应用了最新Bug修复或者Feature的Patch,并比Apache hadoop同功能版本提早发布,更新速度比Apache官方快。

(3)安全 CDH支持Kerberos安全认证,apache hadoop则使用简陋的用户名匹配认证 

(4)CDH文档清晰,很多采用Apache版本的用户都会阅读CDH提供的文档,包括安装文档、升级文档等。 

(5)CDH支持Yum/Apt包,Tar包,RPM包,CM安装,Cloudera Manager三种方式安装,Apache hadoop只支持Tar包安装。


  注:CDH使用推荐的Yum/Apt包安装时,有以下几个好处: 
1、联网安装、升级,非常方便 
2、自动下载依赖软件包 

3、Hadoop生态系统包自动匹配,不需要你寻找与当前Hadoop匹配的Hbase,Flume,Hive等软件,Yum/Apt会根据当前安装Hadoop版本自动寻找匹配版本的软件包,并保证兼容性。

4、自动创建相关目录并软链到合适的地方(如conf和logs等目录);自动创建hdfs, mapred用户,hdfs用户是HDFS的最高权限用户,mapred用户则负责mapreduce执行过程中相关目录的权限。





CDH版本介绍

Cloudera公司的发行版,我们将该版本称为CDH。

很多新手问的最多的问题是,哪个是收费的,那个是免费的。
Cloudera Express版本是免费的
Cloudera Enterprise是需要购买注册码的


截至目前为止,CDH共有5个版本,其中,前两个已经不再更新,最近的两个,分别是CDH4在Apache Hadoop 2.0.0版本基础上演化而来的),CDH5,它们每隔一段时间便会更新一次。

Cloudera以patch level划分小版本,比如patch level为923.142表示在原生态Apache Hadoop 0.20.2基础上添加了1065个patch(这些patch是各个公司或者个人贡献的,在Hadoop jira上均有记录),其中923个是最后一个beta版本添加的patch,而142个是稳定版发行后新添加的patch。由此可见,patch level越高,功能越完备且解决的bug越多。
Cloudera版本层次更加清晰,且它提供了适用于各种操作系统的Hadoop安装包,可直接使用apt-get或者yum命令进行安装,更加省事。


版本含义介绍
各版本特性查看
http://www.cloudera.com/documentation/enterprise/release-notes/topics/rg_release_notes_cdh.html



安装包下载

各个版本包的地址:
Cloudera文档汇总
http://www.cloudera.com/content/support/en/documentation.html
CDH4、CDH5包汇总
http://archive.cloudera.com/cdh4/
http://archive.cloudera.com/cdh5/
CM4、CM5包汇总
http://archive.cloudera.com/cm4/
http://archive.cloudera.com/cm5/

官网CDH5下载
http://www.cloudera.com/content/ ... /cdh/cdh-5-1-0.html

以前版本地址:
CDH1~CDH3
http://archive-primary.cloudera.com/cdh/




安装方式

CM(Cloudera Manager)有三种安装方式

第一种使用cloudera-manager-installer.bin在线安装

这种安装方式需要所有机子能上网,只要从官网下载cloudera-manager-installer.bin,然后执行这个bin文件,剩下的就是等待下载和安装。但是这个时间不是一般的长,最好吃个饭,睡个觉,最后看到还在安装过程中。而且网速不好的话有可能会中断。但是是最方便的。



第二种使用rpm、yum、apt-get方式在线安装

这种安装方式也是在线安装需要机子能上网,在网上看的有点眼花缭乱,可能是因为我们对yum、apt、rpm了解的不多造成的,对于Linux基础缺乏的,可以多学习一下这几个linux命令,总的来说:由于rpm依赖关系不好,所以产生了yum,而yum和apt则都是Linux的包管理工具,并且解决了包与包的依赖关系。


第三种使用是Tarballs的方式离线安装

这种方式使用的是tar包,跟hadoop的安装方式是一样的。

我们将在下一篇文章中进行详细的安装步骤记录。


官网对于安装的介绍可查看

http://www.cloudera.com/documentation/enterprise/latest/topics/installation_installation.html




安装失败的处理

由于内存不足或者操作步骤不对,缺失等等原因可能导致安装失败,这时候不能直接第二次安装,需要把cloudrea卸载干净才能进行第二次安装。

卸载的详细步骤我们在后续的文章中会详细记录。



目录结构

由于我们大多采用在线安装的方式,所以初学者根本不知道cloudera安装在了什么位置,详细的目录分析我们在后续的文章中会记录。




CDH开发

CDH开发跟之前我们的hadoop开发其实是一样的,没什么大的区别,还是有2种方式:

一种是安装插件在eclipse中,配置好参数后run on hadoop直接在搭建好的集群中运行。

另一种是自己添加需要的包,在本地测试好方法之后打包成jar上传到linux中在hadoop集群中运行。

详细步骤可参考:

hadoop基础----hadoop实战(四)-----myeclipse开发MapReduce---myeclipse搭建hadoop开发环境并运行wordcount




注意事项

cloudera CM的安装比起hadoop集群的安装对硬件的要求更高。如果是在一台机子中的虚拟机中安装,那这台机子内存至少10G,为什么会这么多,如果少于10G是否可以,答案是可以的,但是后面你会遇到各种问题,或许都找不到答案。
对于cloudera-scm-server就需要至少4G的内存,cloudera-scm-agent的内存至少也需要1.5G以上。那么如果你的机器是8G的,还是很吃力的。
在安装的过程中,后面有很多的服务安装遇到问题的可能性是很大的。




参考文章

http://www.aboutyun.com/thread-9219-1-1.html



推荐阅读
  • 问题详情无奈于,在kafka里没有一个较好自带的webui。启动后无法观看,并且不友好。所以,需安装一个第三方的kafka管理工具为了简化开发者和服务工程师维护 ... [详细]
  • 大数据领域的职业路径与角色解析
    本文将深入探讨大数据领域的各种职业和工作角色,帮助读者全面了解大数据行业的需求、市场趋势,以及从入门到高级专业人士的职业发展路径。文章还将详细介绍不同公司对大数据人才的需求,并解析各岗位的具体职责、所需技能和经验。 ... [详细]
  • 在Linux系统中,原本已安装了多个版本的Python 2,并且还安装了Anaconda,其中包含了Python 3。本文详细介绍了如何通过配置环境变量,使系统默认使用指定版本的Python,以便在不同版本之间轻松切换。此外,文章还提供了具体的实践步骤和注意事项,帮助用户高效地管理和使用不同版本的Python环境。 ... [详细]
  • 转载:https:blog.csdn.nethigh2011articledetails70155431清华大学镜像网:https:mirrors.tu ... [详细]
  • 本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS,然后通过MapReduce清洗数据,使用Hive进行数据分析,并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • HBase Java API 进阶:过滤器详解与应用实例
    本文详细探讨了HBase 1.2.6版本中Java API的高级应用,重点介绍了过滤器的使用方法和实际案例。首先,文章对几种常见的HBase过滤器进行了概述,包括列前缀过滤器(ColumnPrefixFilter)和时间戳过滤器(TimestampsFilter)。此外,还详细讲解了分页过滤器(PageFilter)的实现原理及其在大数据查询中的应用场景。通过具体的代码示例,读者可以更好地理解和掌握这些过滤器的使用技巧,从而提高数据处理的效率和灵活性。 ... [详细]
  • HBase在金融大数据迁移中的应用与挑战
    随着最后一台设备的下线,标志着超过10PB的HBase数据迁移项目顺利完成。目前,新的集群已在新机房稳定运行超过两个月,监控数据显示,新集群的查询响应时间显著降低,系统稳定性大幅提升。此外,数据消费的波动也变得更加平滑,整体性能得到了显著优化。 ... [详细]
  • Storm集成Kakfa
    一、整合说明Storm官方对Kafka的整合分为两个版本,官方说明文档分别如下:StormKafkaIntegratio ... [详细]
  • 使用clouderaquickstartvm无配置快速部署Hadoop应用
    http:zzj270919.blog.163.comblogstatic68997776201522561659999目录:通过CDH网站下载cloudera-vm ... [详细]
  • Spark学习之路(一)Spark概述
    一,什么是spark定义:Spark一种基于内存的快速,通用,可扩展的大数据分析引擎.官网地址:http:spark.apache.org历史:2009年诞生于加州伯 ... [详细]
  • Spark与HBase结合处理大规模流量数据结构设计
    本文将详细介绍如何利用Spark和HBase进行大规模流量数据的分析与处理,包括数据结构的设计和优化方法。 ... [详细]
  • Hadoop平台警告解决:无法加载本机Hadoop库的全面应对方案
    本文探讨了在Hadoop平台上遇到“无法加载本机Hadoop库”警告的多种解决方案。首先,通过修改日志配置文件来忽略该警告,这一方法被证明是有效的。其次,尝试指定本地库的路径,但未能解决问题。接着,尝试不使用Hadoop本地库,同样没有效果。然后,通过替换现有的Hadoop本地库,成功解决了问题。最后,根据Hadoop的源代码自行编译本地库,也达到了预期的效果。以上方法适用于macOS系统。 ... [详细]
  • Flume 开源分布式日志收集系统
    为什么80%的码农都做不了架构师?Flume--开源分布式日志收集系统Flume是Cloudera提供的一个高可用的、高可靠的开源分布式海量日志收集系统 ... [详细]
  • CDH4简介
    原文地址:CDH4简介作者:HadoopChinaWebelievethatduring2012,enterprisedistributionsofHa ... [详细]
author-avatar
红颜弹指老a刹那芳华_623
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有