hadoop基础----hadoop实战(六)-----hadoop管理工具---ClouderaManager---CDH介绍

作者：红颜弹指老a刹那芳华_623 | 来源：互联网 | 2023-10-16 14:21

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多

我们在之前的文章中已经初步介绍了Cloudera。

hadoop基础----hadoop实战(零)-----hadoop的平台版本选择

从版本选择这篇文章中我们了解到除了hadoop官方版本外很多公司都对hadoop进行了改版发布，其中Cloudera就是其中最成型的发行版本，并且配备了相应的管理工具。

本篇文章我们就来学习Cloudera的相关知识。

什么是CDH

Cloudera's Distribution for Hadoop(即Cloudera公司发布的Hadoop，简称CDH)基于最新稳定版本的Apache Hadoop，有许多补丁、向后移植和更新。Cloudera公司以多种不同的形式进行发布，包括源码和二进制tar文件、RPM , Debian包、VMware image和在云上运行CDH的脚本。CDH是在Apache 2.0许可下发布的自由软件，用户可从http: //www. cloudera. com/hadoop 获得。

为了简化部署，Cloudera还在公共的yum和apt存储库中提供了若干个包，因此只用一条指令就能在计算机上安装和配置Hadoop。即使是新手用户，不借助手册也可成功安装整个Hadoop集群。

CDH支持的组件

CDH管理着跨组件版本，并提供一个稳定的平台供许多包一起运行。以CDH3为例，它包含下列包，其中许多包都是需要我们去学习掌握的:
HDFS—自我修复的分布式文件系统
MapReduce—强大的并行数据处理框架
Hadoop Common—一组支持Hadoop子项目的工具
HBase—支持随机读/写访问的Hadoop数据库
Hive—在大数据集合上的类SQL查询和表
Pig—数据流语言和编译器
Oozie—针对互相依赖的Hadoop作业的工作流
Sqoop—利用集成到Hadoop的数据库和数据仓库
Flume—高可靠、可配置的数据流集合
Zookeeper—面向分布式应用的协调服务
Hue—可视化Hadoop应用的用户接口框架和SDK

目前最新版本的CDH包含了哪些组件可查看（当然越新版本的支持的组件越多）

http://www.cloudera.com/developers/inside-cdh.html

组件的详细版本号只能在安装完成后才能查看出来，我目前没有在官网中找到对应表。

至于之前版本哪些组件最少需要哪个CDH的版本可查看

http://www.cloudera.com/documentation/enterprise/release-notes/topics/rn_consolidated_pcm.html

要下载CDH，请访问http: //www. cloudera. com/downloads/ 。

更多cloudera的信息可查看官网http://www.cloudera.com/

CDH（Cloudera）与hadoop（apache官方）对比

(1) CDH对Hadoop版本的划分非常清晰，只有两个系列的版本，分别是cdh3和cdh4，分别对应第一代Hadoop（Hadoop 1.0）和第二代Hadoop（Hadoop 2.0），相比而言，Apache版本则混乱得多；比Apache hadoop在兼容性，安全性，稳定性上有增强。

(2)CDH3版本是基于Apache  hadoop  0.20.2改进的，并融入了最新的patch，CDH4版本是基于Apache hadoop 2.X改进的,CDH总
是并应用了最新Bug修复或者Feature的Patch，并比Apache hadoop同功能版本提早发布，更新速度比Apache官方快。

(3)安全 CDH支持Kerberos安全认证，apache hadoop则使用简陋的用户名匹配认证

(4)CDH文档清晰，很多采用Apache版本的用户都会阅读CDH提供的文档，包括安装文档、升级文档等。

(5)CDH支持Yum/Apt包，Tar包，RPM包，CM安装，Cloudera Manager三种方式安装,Apache hadoop只支持Tar包安装。

  注：CDH使用推荐的Yum/Apt包安装时，有以下几个好处：
1、联网安装、升级，非常方便
2、自动下载依赖软件包

3、Hadoop生态系统包自动匹配，不需要你寻找与当前Hadoop匹配的Hbase，Flume，Hive等软件，Yum/Apt会根据当前安装Hadoop版本自动寻找匹配版本的软件包，并保证兼容性。

4、自动创建相关目录并软链到合适的地方（如conf和logs等目录）；自动创建hdfs, mapred用户，hdfs用户是HDFS的最高权限用户，mapred用户则负责mapreduce执行过程中相关目录的权限。

CDH版本介绍

Cloudera公司的发行版，我们将该版本称为CDH。

很多新手问的最多的问题是，哪个是收费的，那个是免费的。
Cloudera Express版本是免费的
Cloudera Enterprise是需要购买注册码的

截至目前为止，CDH共有5个版本，其中，前两个已经不再更新，最近的两个，分别是CDH4在Apache Hadoop 2.0.0版本基础上演化而来的），CDH5，它们每隔一段时间便会更新一次。

Cloudera以patch level划分小版本，比如patch level为923.142表示在原生态Apache Hadoop 0.20.2基础上添加了1065个patch（这些patch是各个公司或者个人贡献的，在Hadoop jira上均有记录），其中923个是最后一个beta版本添加的patch，而142个是稳定版发行后新添加的patch。由此可见，patch level越高，功能越完备且解决的bug越多。
Cloudera版本层次更加清晰，且它提供了适用于各种操作系统的Hadoop安装包，可直接使用apt-get或者yum命令进行安装，更加省事。

版本含义介绍
各版本特性查看
http://www.cloudera.com/documentation/enterprise/release-notes/topics/rg_release_notes_cdh.html

安装包下载

各个版本包的地址：
Cloudera文档汇总
http://www.cloudera.com/content/support/en/documentation.html
CDH4、CDH5包汇总
http://archive.cloudera.com/cdh4/
http://archive.cloudera.com/cdh5/
CM4、CM5包汇总
http://archive.cloudera.com/cm4/
http://archive.cloudera.com/cm5/

官网CDH5下载
http://www.cloudera.com/content/ ... /cdh/cdh-5-1-0.html

以前版本地址：
CDH1~CDH3
http://archive-primary.cloudera.com/cdh/

安装方式

CM(Cloudera Manager)有三种安装方式

第一种使用cloudera-manager-installer.bin在线安装

这种安装方式需要所有机子能上网，只要从官网下载cloudera-manager-installer.bin，然后执行这个bin文件，剩下的就是等待下载和安装。但是这个时间不是一般的长，最好吃个饭，睡个觉，最后看到还在安装过程中。而且网速不好的话有可能会中断。但是是最方便的。

第二种使用rpm、yum、apt-get方式在线安装

这种安装方式也是在线安装需要机子能上网，在网上看的有点眼花缭乱，可能是因为我们对yum、apt、rpm了解的不多造成的，对于Linux基础缺乏的，可以多学习一下这几个linux命令，总的来说：由于rpm依赖关系不好，所以产生了yum，而yum和apt则都是Linux的包管理工具，并且解决了包与包的依赖关系。

第三种使用是Tarballs的方式离线安装

这种方式使用的是tar包，跟hadoop的安装方式是一样的。

我们将在下一篇文章中进行详细的安装步骤记录。

官网对于安装的介绍可查看

http://www.cloudera.com/documentation/enterprise/latest/topics/installation_installation.html

安装失败的处理

由于内存不足或者操作步骤不对，缺失等等原因可能导致安装失败，这时候不能直接第二次安装，需要把cloudrea卸载干净才能进行第二次安装。

卸载的详细步骤我们在后续的文章中会详细记录。

目录结构

由于我们大多采用在线安装的方式，所以初学者根本不知道cloudera安装在了什么位置，详细的目录分析我们在后续的文章中会记录。

CDH开发

CDH开发跟之前我们的hadoop开发其实是一样的，没什么大的区别，还是有2种方式：

一种是安装插件在eclipse中，配置好参数后run on hadoop直接在搭建好的集群中运行。

另一种是自己添加需要的包，在本地测试好方法之后打包成jar上传到linux中在hadoop集群中运行。

详细步骤可参考:

hadoop基础----hadoop实战(四)-----myeclipse开发MapReduce---myeclipse搭建hadoop开发环境并运行wordcount

注意事项

cloudera CM的安装比起hadoop集群的安装对硬件的要求更高。如果是在一台机子中的虚拟机中安装，那这台机子内存至少10G，为什么会这么多，如果少于10G是否可以，答案是可以的，但是后面你会遇到各种问题，或许都找不到答案。
对于cloudera-scm-server就需要至少4G的内存，cloudera-scm-agent的内存至少也需要1.5G以上。那么如果你的机器是8G的，还是很吃力的。
在安装的过程中，后面有很多的服务安装遇到问题的可能性是很大的。

参考文章

http://www.aboutyun.com/thread-9219-1-1.html

推荐阅读

mapreduce
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
mapreduce
原创 | 大数据入门基础系列之ClouderaManager版本的Hive安装部署

添加服务，一 ... [详细]

蜡笔小新 2023-10-15 16:43:57
stream
Spark学习之路(一)Spark概述

一,什么是spark定义:Spark一种基于内存的快速,通用,可扩展的大数据分析引擎.官网地址：http:spark.apache.org历史:2009年诞生于加州伯 ... [详细]

蜡笔小新 2023-10-10 18:42:22
stream
使用clouderaquickstartvm无配置快速部署Hadoop应用

http:zzj270919.blog.163.comblogstatic68997776201522561659999目录：通过CDH网站下载cloudera-vm ... [详细]

蜡笔小新 2023-10-11 18:27:57
instance
深入解析Spring Cloud Ribbon负载均衡机制

本文详细介绍了Spring Cloud中的Ribbon组件如何实现服务调用的负载均衡。通过分析其工作原理、源码结构及配置方式，帮助读者理解Ribbon在分布式系统中的重要作用。 ... [详细]

蜡笔小新 2024-12-27 16:01:25
instance
全面解析运维监控：白盒与黑盒监控及四大黄金指标

本文深入探讨了白盒和黑盒监控的概念，以及它们在系统监控中的应用。通过详细分析基础监控和业务监控的不同采集方法，结合四个黄金指标的解读，帮助读者更好地理解和实施有效的监控策略。 ... [详细]

蜡笔小新 2024-12-22 14:02:29
instance
Flume 开源分布式日志收集系统

为什么80%的码农都做不了架构师？Flume--开源分布式日志收集系统Flume是Cloudera提供的一个高可用的、高可靠的开源分布式海量日志收集系统 ... [详细]

蜡笔小新 2023-10-11 13:45:25
version
ubuntu16.04 +Java8+ hadoop2.x单机安装

关于hadoop及相关模块的安装，自己下载模块安装的话较为麻烦，有配置、版本对应的些许问题，使用cloudera集成好的平台也不错 ... [详细]

蜡笔小新 2023-10-11 00:47:53
version
Hdoop入门

一、背景1、起源MapReduce编程模型的思想来源于函数式编程语言Lisp，由Google公司于2004年提出并首先应用于大型集群。同时，Google ... [详细]

蜡笔小新 2023-10-10 12:27:30
version
消息中间件kafka+zookeeper集群部署、测试与应用（1）

2017-11-05卓明_开源中国开源中国开源中国微信号oschina2013功能介绍OSChina开源中国官方微信账号业务系统中，通常会遇到这些场景：A系统向B系统主动推送一个处 ... [详细]

蜡笔小新 2023-10-10 09:07:17
version
Java编程的核心要素与关键技术

本文探讨了Java编程的核心要素，特别是其面向对象的特性，并详细介绍了Java虚拟机、类装载器体系结构、Java类文件和Java API等关键技术。这些技术使得Java成为一种功能强大且易于使用的编程语言。 ... [详细]

蜡笔小新 2024-12-23 12:58:30
version
Linux环境下配置Subclipse访问SVN+SSH仓库的方法

本文详细介绍如何在Linux操作系统中配置Subclipse，以便通过SSH协议安全访问SVN仓库。不同于常见的Windows配置指南，本文提供了针对Linux用户的详细步骤。 ... [详细]

蜡笔小新 2024-12-07 20:20:13
stream
在Ubuntu 14.04 (Desktop AMD64) 上安装与配置ROS Indigo

本文档详细介绍了如何在Ubuntu 14.04 (Desktop AMD64) 系统上安装和配置ROS Indigo。包括设置软件源、安装ROS核心组件、初始化rosdep以及创建ROS工作空间等步骤。 ... [详细]

蜡笔小新 2024-12-06 12:55:49
stream
利用 Calcurse 在 Linux 终端高效管理日程与任务

对于喜爱使用 Linux 终端进行日常操作的系统管理员来说，Calcurse 提供了一种强大的方式来管理日程安排、待办事项及会议。本文将详细介绍如何在 Linux 上安装和使用 Calcurse，帮助用户更有效地组织工作。 ... [详细]

蜡笔小新 2024-11-21 17:01:54
version
华为鲲鹏平台适配的Redis Docker镜像构建指南

本文详细介绍如何在华为鲲鹏平台上构建和使用适配ARM架构的Redis Docker镜像，解决常见错误并提供优化建议。 ... [详细]

蜡笔小新 2024-11-19 15:04:08

红颜弹指老a刹那芳华_623

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章