CDH4简介

作者：杨扬洒傻 | 来源：互联网 | 2023-10-11 12:53

原文地址：CDH4简介作者：HadoopChinaWebelievethatduring2012,enterprisedistributionsofHa

原文地址&＃xff1a;CDH4简介作者&＃xff1a;HadoopChina

We believe that during 2012, enterprise distributions of Hadoop will mature enough that enterprises will accelerate production deployments and begin to yield tangible organizational value.

— Ben Woo, VP, Storage and Big Data, IDC

随着大数据之说日渐人心&＃xff0c;越来越来多的企业把目光投向了Hadoop&＃xff0c;希望采用Hadoop来建立其数据驱动平台。因此&＃xff0c;如何让Hadoop能更好地满足企业需求&＃xff0c;就成为众多Hadoop产商争夺用户的焦点。

一般来说&＃xff0c;企业的需求体现在如下几个方面&＃xff1a;

&＃xff0d;和企业已有的&＃xff29;&＃xff34;系统的结合&＃xff0c;以保护企业已有的投资。

&＃xff0d;数据和访问安全性&＃xff0c;保护商业价值

&＃xff0d;可扩展性&＃xff0c;允许系统随着企业需求的增长而增长&＃xff0c;而无需一次性投入建立一个庞大的系统

&＃xff0d;高可靠性&＃xff0c;尽量降低或消除down time

- 简易的安装和部署&＃xff0c;目前Hadoop人才紧缺&＃xff0c;经验普遍欠缺&＃xff0c;而系统往往涉及大量的软硬件资源&＃xff0c;如何降低管理成本&＃xff0c;同时又能达到最优的系统性能&＃xff0c;非常关键

&＃xff0d;高质量和快速的支持和服务

对此&＃xff0c;Cloudera和Hortonworks这两家提供100%开源Hadoop发行版的公司都在于近期结束的Hadoop Summit召开之前及时推出了其Hadoop产品和解决方案。Cloudera推出了CDH4 GA版 (General Availability)以及Cloudera Enterprise 4&＃xff0c;而Hortonworks则推出了Hortonworks Data Platform 1.0 。这显示了2012年将是Hadoop企业版走向成熟的一年&＃xff0c;也将是Hadoop厂商一决雌雄的关键一年。奇怪的是&＃xff0c;我注意到&＃xff0c;作为纯Hadoop厂商三驾马车之一的MapR这一次却在Hadoop Summit召开期间及前后没有推出更新的稳定版本&＃xff1b;更加费解的是&＃xff0c;他们也没有派出Speaker参加Summit做主题演讲或技术产品报告&＃xff0c;听由这次Summit变成Cloudera和Hortonworks两家你唱罢我登台的走秀场&＃xff08;两个公司在这次峰会上均有多达10人左右的speaker &＃xff09;。但愿这可能是由于其产品开发档期不同&＃xff0c;或者是由于其忙于推出Hadoop-as-a-service而不代表MapR退出Hadoop发行版的竞争(update: MapR于28日公布了和Google合作-在Google Compute Engine上部署运行MapR&＃xff0c;加上不久前MapR公布的和Amazon的合作&＃xff0c;看来其市场策略更偏重于在云服务市场上的竞争。不过&＃xff0c;这些市场应该在可以预见的相当长的时间里跟绝大多数国人无关&＃xff0c;至少在争夺中国这个大市场上&＃xff0c;是不是意味着MapR拜GFW所赐输在了起跑线上呢)。

作为Hadoop领域里的“老大”和生力军&＃xff0c;Cloudera新近推出的CDH4突出的新特性包括以下三方面&＃xff1a;

- High Availability/HA

这主要包括Name Node High Availability&＃xff0c;以及允许在同一个Cluster里运行CDH3和CDH4&＃xff08;所谓的"Heterogeneous Cluster"&＃xff09;。

- Security

除了已经为HDFS提供的Kerberos&＃xff0c;现在可以允许对HBase的表和列进行访问控制&＃xff1b;另外&＃xff0c;CDH4加入了对Fair Scheduler ACL的支持&＃xff0c;对管理和递交到Fair Scheduler Pool的作业进行控制。以往像张三那样可以随心所欲地把作业递交到李四pool里的日子可能一去不复返了 :-)

- Extensibility

这主要是通过加入co-processor和MPv2&＃xff0c;允许用户运行更多定制的程序和使用不同的计算平台。

下面对CDH4 GA版的更新做一些概括性的介绍&＃xff0c;详细信息可以参考Cloudera网站上的相应文档&＃xff0c;下面是其相关Blog报道: http://www.cloudera.com/blog/2012/06/cdh4-and-cloudera-enterprise-4-0-now-available。

新的版本号

CDH4采用了新的版本记法。在CDH4之前&＃xff0c;CDH按照CDHxUy来命名&＃xff0c;譬如CDH3u0, CDH3u1等等。从CDH4开始&＃xff0c;版本号命名格式为CDH　X.Y.Z。其中X是主版本号&＃xff0c;意味着重大变更&＃xff1b;Y是次版本号&＃xff0c;类似于之前的“update”版本号&＃xff1b;Z是点版本号&＃xff0c;对应于一些critical fixes。下面是CDH4发行版所包括的组件版本号。

Component	Description	CDH3u4 Version	CDH4u0 Version
Apache Hadoop	Reliable, scalable distributed storage and computing	hadoop-0.20.2&＃43;923.256	hadoop-2.0.0&＃43;73
HDFS	The Hadoop Distributed File System	hadoop-0.20.2&＃43;923.256	hadoop-2.0.0&＃43;73
Fuse-DFS	Module for mounting HDFS as a traditional file system	hadoop-0.20.2&＃43;923.256	hadoop-2.0.0&＃43;73
MapReduce	Distributed computing framework for Apache Hadoop	hadoop-0.20.2&＃43;923.256	mr1-0.20.2&＃43;1213
MapReduce 2	The next-generation of the MapReduce framework	--	hadoop-2.0.0&＃43;73
Hadoop Common	A set of utilities that support the Hadoop subprojects	hadoop-0.20.2&＃43;923.256	hadoop-2.0.0&＃43;73
Apache Flume	Distributed service for collecting and aggregating log and event data	flume-0.9.4&＃43;25.43, flume-1.1.0	flume-1.1.0
Apache HBase	Scalable record and table storage with real-time read/write access	hbase-0.90.6&＃43;84.29	hbase-0.92.1&＃43;37
Apache Hive	SQL-like language and metadata repository	hive-0.7.1&＃43;42.43	hive-0.8.1&＃43;59
Apache Mahout	Library of machine learning algorithms for Hadoop	mahout-0.5&＃43;9.5	mahout-0.6&＃43;15
Apache Oozie	Workflow engine to coordinate Hadoop activities	oozie-2.3.2&＃43;27.19	oozie-3.1.3&＃43;153
Apache Pig	High-level data flow language	pig-0.8.1&＃43;28.32	pig-0.9.2&＃43;25
Apache Sqoop	Data transport engine for integrating Hadoop with relational databases	sqoop-1.3.0&＃43;5.76	sqoop-1.4.1&＃43;27
Apache Whirr	Library for deploying and running Hadoop in the cloud	whirr-0.5.0&＃43;4.12	whirr-0.7.1&＃43;14
Apache Zookeeper	Highly-reliable distributed coordination service	zookeeper-3.3.5&＃43;19.1	zookeeper-3.4.3&＃43;14
Hue	Browser-based interface for interacting with Hadoop	hue-1.2.0.0&＃43;114.35	hue-2.0.0&＃43;49

很多属性被重新命名

譬如fs.default.name现在变成了fs.defaultFS。不过不用担心的是&＃xff0c;老的名字还能继续被使用。

包含Flume NG

CDH4及以后版本将主打Flume NG (next generation Flume)。Flume NG被重新设计和改写&＃xff0c;极大地降低了内存的消耗。目前CDH4仍然包含Flume OG(original Flume)&＃xff0c;不过将逐渐被淘汰掉。需要注意的是&＃xff0c;Flume NG和Flume OG在API上是不兼容的。

Name Node Federation

NameNode Federation 允许配置多个name space在多个Name Node上&＃xff0c;而这些Name Node之间是相互独立的&＃xff0c;不互相通信。这给Hadoop集群带来了更好的伸缩性&＃xff0c;更好的性能和容错性。在客户端则可以通过ViewFS从多个Name Space中选取全部或者部分来组建所需的文件系统视图来使用HDFS。这好比在Linux 系统中使用/etc/fstab来安装文件系统到当前运行的系统中。

譬如在下图中&＃xff0c;可能有两个Name Node&＃xff0c;第一个负责/users&＃xff0c;另一个负责/reports。而所有Name Node存储的实际数据&＃xff08;block&＃xff09;则可以存储在任意一个slave node上&＃xff0c;也就是说所有的slave nodes为所有的Name Nodes所共享。

[转载]CDH4简介

Name Node HA (High Availability)

以前版本里的Name Node是SPOF&＃xff08;Single Point Of Failure&＃xff09;。CDH4则包含了Apache Hadoop 0.23.x引进的HDFS HA特性。通过部署两个Name Node&＃xff0c;一个active&＃xff0c;另一个standby。HDFS客户&＃xff08;包括Data Node &＃xff09;只与active NN联系&＃xff0c;standby NN仍然给active NN做Check Pointing (所以Secondary Name Node不再需要了)&＃xff0c;同时通过维护active NN的状态来在active NN失效的情况下接管active NN的角色。CDH4支持两种FailOver&＃xff0c;自动和手动。

[转载]CDH4简介

值得提出的是&＃xff0c;Name Node HA和Name Node Federation是不互相牵制的。你可以只有HA或者只有Federation&＃xff0c;也可以两个都配置。

MRv2

MapReduce Version 2, 简称MRv2&＃xff0c;也被称为YARN　&＃xff08;Yet Another Resource Negotiator&＃xff09;&＃xff0c;起始于Hadoop 0.23分支。使用CDH4&＃xff0c;可以选择运行MRv1或者MRv2&＃xff0c;但两者不能在一个集群里同时运行。MRv2 和新旧MapReduce API 没有关系&＃xff0c;仅指MapReduce体系结构上的变化。MRv1和MRv2应用在源代码上是兼容的。这意味着以前为MRv1 编写的MapReduce程序不需要改写。但如果需要运行在CDH4部署的系统上&＃xff0c;不管选择运行MRv1还是MRv2&＃xff0c;都需要重新编译生成代码。需要提请注意的是&＃xff0c;MRv2 目前还不是Production Ready&＃xff0c;所以不要用于生产环境。

在MRv1里的一个Job&＃xff0c;在MRv2 里则被称为一个Application。每个Cluster拥有一个Resource Manager。每个Slave Node则运行一个Node Manager&＃xff0c;来监控和管理该节点上的资源使用情况。在运行Job的时候&＃xff0c;和MRv1相似&＃xff0c;每个Slave Node运行Map和/或者Reduce Task。对应每个Job&＃xff08;application&＃xff09;&＃xff0c;有一个Application Master&＃xff08;运行在某个Slave Node上&＃xff09;&＃xff0c;负责管理application的生命周期&＃xff0c;向resource manager申请资源&＃xff0c;以及监控task的状态等&＃xff08;譬如重启出错任务&＃xff09;。这种体系结构相当于解脱了MRv1 里JobTracker繁忙的管理所有资源及调度管理Job/Task状态的职责&＃xff0c;使得MRv2能支持在更大的集群上运行更多的MapReduce应用。

[转载]CDH4简介

MRv2重新设计了MapReduce的体系结构&＃xff0c;其设计目的是不仅仅支持运行MapReduce&＃xff0c;还支持很多其他计算系统&＃xff0c;包括有&＃xff1a;

Hamster: MPI &＃64; Hadoop

Hama: Bulk Synchronous Parallel (BSP) processing

Giraph: Graph processing framework

当然&＃xff0c;以上只是一些简介&＃xff0c;更多的了解可以参考Cloudera网站&＃xff0c;并下载和实际使用CHD4。

最后&＃xff0c;Cloudera把CH4&＃43;CM4&＃xff08;Cloudera Manager&＃xff09;号称为最完整最先进的基于Hadoop的企业解决方案&＃xff0c;所以&＃xff0c;我就顺带简单列举一下作为Hadoop安装部署和管理监控工具的CM4的几个优势&＃xff0c;供参考。

&＃xff0d;易用性

3-step HA configuration

Multi-cluster management

Backward compatibility

- 功能强大

Heatmaps

Federated NN management

- 易于扩充和集成

Cloudera manager API

LDAP authentication,login against Active Directory

etc.

推荐阅读

service
DNN Community 和 Professional 版本的主要差异

本文详细解析了 DotNetNuke (DNN) 的两种主要版本：Community 和 Professional。通过对比两者的功能和附加组件，帮助用户选择最适合其需求的版本。 ... [详细]

蜡笔小新 2024-12-27 13:14:08
config
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
get
Transforming the Future of Virtual Worlds

Explore how Matterverse is redefining the metaverse experience, creating immersive and meaningful virtual environments that foster genuine connections and economic opportunities. ... [详细]

蜡笔小新 2024-12-28 09:44:49
get
数据管理权威指南：《DAMA-DMBOK2 数据管理知识体系》

本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释，构建了数据管理的总体框架，为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]

蜡笔小新 2024-12-27 18:29:55
config
Linux 网卡绑定的七种工作模式详解

本文深入探讨了Linux系统中网卡绑定（bonding）的七种工作模式。网卡绑定技术通过将多个物理网卡组合成一个逻辑网卡，实现网络冗余、带宽聚合和负载均衡，在生产环境中广泛应用。文章详细介绍了每种模式的特点、适用场景及配置方法。 ... [详细]

蜡笔小新 2024-12-27 10:18:13
config
Linux 透明防火墙（网桥模式）的部署与配置

本文介绍如何在现有网络中部署基于Linux系统的透明防火墙（网桥模式），以实现灵活的时间段控制、流量限制等功能。通过详细的步骤和配置说明，确保内部网络的安全性和稳定性。 ... [详细]

蜡笔小新 2024-12-25 13:17:38
config
Kubernetes 持久化存储与数据卷详解

本文深入探讨 Kubernetes 中持久化存储的使用场景、PV/PVC/StorageClass 的基本操作及其实现原理，旨在帮助读者理解如何高效管理容器化应用的数据持久化需求。 ... [详细]

蜡笔小新 2024-12-23 12:10:22
config
golang常用库：配置文件解析库/管理工具viper使用

golang常用库：配置文件解析库管理工具-viper使用-一、viper简介viper配置管理解析库，是由大神SteveFrancia开发，他在google领导着golang的 ... [详细]

蜡笔小新 2024-12-28 13:47:52
match
[论文笔记] Crowdsourcing Translation: Professional Quality from Non-Professionals (ACL, 2011)

Time:4hoursTimespan:Apr15–May3,2012OmarZaidan,ChrisCallison-Burch:CrowdsourcingTra ... [详细]

蜡笔小新 2024-12-28 13:39:05
heap
深入解析JVM垃圾收集器

本文基于《深入理解Java虚拟机：JVM高级特性与最佳实践》第二版，详细探讨了JVM中不同类型的垃圾收集器及其工作原理。通过介绍各种垃圾收集器的特性和应用场景，帮助读者更好地理解和优化JVM内存管理。 ... [详细]

蜡笔小新 2024-12-28 13:35:19
heap
TCP长连接设备管理平台：架构与功能概览

本文介绍了基于TCP长连接的设备管理平台的设计理念、技术选型及主要功能模块。最初，项目旨在实现简单的协议测试，但随着需求扩展，逐步演变为一个完整的前后端分离系统。 ... [详细]

蜡笔小新 2024-12-25 09:07:38
get
选择适合生产环境的Docker存储驱动

本文旨在探讨如何在生产环境中选择合适的Docker存储驱动，并详细介绍不同Linux发行版下的配置方法。通过参考官方文档和兼容性矩阵，提供实用的操作指南。 ... [详细]

蜡笔小新 2024-12-24 11:16:45
config
深入解析网络存储技术

本文详细介绍了网络存储技术的基本概念、分类及应用场景。通过分析直连式存储（DAS）、网络附加存储（NAS）和存储区域网络（SAN）的特点，帮助读者理解不同存储方式的优势与局限性。 ... [详细]

蜡笔小新 2024-12-24 10:38:34
config
Android 自定义绘图板应用

本文介绍如何使用 Android 的 Canvas 和 View 组件创建一个简单的绘图板应用程序，支持触摸绘画和保存图片功能。 ... [详细]

蜡笔小新 2024-12-23 10:12:53
get
Python自动化测试入门：Selenium环境搭建

本文详细介绍如何在Python环境中安装和配置Selenium，包括开发工具PyCharm的安装、Python环境的设置以及Selenium包的安装方法。此外，还提供了编写和运行第一个自动化测试脚本的步骤。 ... [详细]

蜡笔小新 2024-12-21 10:48:56

杨扬洒傻

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章