作者:CCTV2财经2677 | 来源:互联网 | 2023-05-18 04:36
Apache Hadoop是什么
简介
Apache Hadoop是Apache基金会下的开源的(遵循ASF 2.0)软件项目,提供可靠的、可扩展的、分布式计算。
Apache Hadoop 软件库是一种框架,允许开发人员,仅使用简单的编程模式,基于计算机集群的,实现大数据的分布式处理。
Apache Hadoop是Google开源系统的Java实现,包括以下模块:
- Hadoop Common:基础模块,支撑其他模块
- Hadoop Distributed File System, HDFS 实现GFS,一种分布式文件系统,提供大数据的高吞吐量访问。
- YARN Yet Another Resource Negotiate,一种任务调度和资源管理的框架。
- MapReduce 实现MapReduce,一种,基于YARN的、处理大数据的并行计算框架。YARN同时支持Spark、Storm等其他并行框架。
相关项目
ambari:基于Web的Apache 集群的配置、管理、监控工具。
avro:数据序列化系统。
HBase:可扩展的、面向列的分布式数据库,支持大表的结构化数据存储。
Hive:批量查询与分析的数据仓库基础设施。支持数据摘要和临时查询。
mathout:可扩展的机器学习和数据挖掘库。
Pig:解决并行计算的高级数据流语言以及计算框架。
spark:Hadoop数据的高速、通用计算引擎。支持多种应用:ETL、机器学习、流处理、图谱计算。
zookeeper:高性能的分布式协调服务。
HIVE
- Hive是建立在 Hadoop 上的数据仓库基础构架,基于MapReduce计算框架。
- Hive提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop中的大规模数据的机制。
- Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer无法完成的复杂的分析工作。
- Hive 最佳使用场合是大数据集的批处理作业,例如,网络日志分析。不适应低延时的事务,例如OLAP。
Hadoop1.0与2.0的比较
Hadoop 2.0之后,引入YARN,支持其他分布式计算框架。例如Spark内存计算框架、Strorm实时计算框架。
YARN项目背景
直接原因,是 Map Reduce v1.0的问题
1. 扩展性差、单点故障
2. 难以支持MR v1.0之外的其他计算框架
其他原因,多种计算框架之间难以共享数据
1. MR离线计算框架
2. Storm实时计算框架
3. Spark内存计算框架
附录
Hadoop简单历程
2003-2004年 Google 公布GFS、MapReduce 思想
2003-2005年 Doug Cutting受启发,开发HDFS以及MapReduce项目,使Nutch的性能飙升
2005年 Hadoop作为Lucence的子项目并入Apache
2006年 Hadoop独立成为项目
名字起源:Doug Cutting 儿子的黄色大象玩具名字
Hadoop 发展历程
- 2004年— 最初的版本(现在称为HDFS和MapReduce)由Doug Cutting和Mike Cafarella开始实施。
- 2006年1月— Doug Cutting加入雅虎。
- 2006年2月— Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。 2006年2月—
- 雅虎的网格计算团队采用Hadoop。 2006年4月— 标准排序(10 GB每个节点)在188个节点上运行47.9个小时。
- 2006年5月— 雅虎建立了一个300个节点的Hadoop研究集群。
- 2006年11月— 研究集群增加到600个节点。
- 2006年12月— 标准排序在20个节点上运行1.8个小时,100个节点3.3小时,500个节点5.2小时,900个节点7.8个小时。
- 2007年1月— 研究集群到达900个节点。 2007年4月— 研究集群达到两个1000个节点的集群。
- 2008年4月— 赢得世界最快1TB数据排序在900个节点上用时209秒。
- 2008年7月— 雅虎测试节点增加到4000个
- 2008年9月— 2008年11月— Google宣布其MapReduce用68秒对1TB的程序进行排序
- 2008年10月— 研究集群每天装载10TB的数据。
- 2008年— 淘宝开始投入研究基于Hadoop的系统–云梯。
云梯总容量约9.3PB,共有1100台机器,每天处理18000道作业,扫描500TB数据。
- 2009年3月— 17个集群总共24 000台机器。 2009年3月— Cloudera推出CDH(Cloudera’s Dsitribution Including Apache Hadoop)
- 2009年4月— 赢得每分钟排序,雅虎59秒内排序500GB(在1400个节点上)和173分钟内排序100 TB数据(在3400个节点上)。
- 2009年5月— Yahoo的团队使用Hadoop对1 TB的数据进行排序只花了62秒时间。
- 2009年7月— Hadoop Core项目更名为Hadoop Common;
- 2009年7月— MapReduce 和 Hadoop Distributed File System (HDFS) 成为Hadoop项目的独立子项目。
- 2009年7月— Avro 和 Chukwa 成为Hadoop新的子项目。
- 2009年9月— 亚联BI团队开始跟踪研究Hadoop
- 2009年12月—亚联提出橘云战略,开始研究Hadoop 2010年5月— Avro脱离Hadoop项目,成为Apache顶级项目。
- 2010年5月— HBase脱离Hadoop项目,成为Apache顶级项目。 2010年5月— IBM提供了基于Hadoop 的大数据分析软件——InfoSphere BigInsights,包括基础版和企业版。
- 2010年9月— Hive( Facebook) 脱离Hadoop,成为Apache顶级项目。
2011年1月— ZooKeeper 脱离Hadoop,成为Apache顶级项目。 2011年3月— Apache Hadoop获得Media Guardian Innovation Awards 。
- 2011年3月— Platform Computing 宣布在它的Symphony软件中支持Hadoop MapReduce API。
- 2011年5月— Mapr Technologies公司推出分布式文件系统和MapReduce引擎——MapR Distribution for Apache Hadoop。
- 2011年5月— HCatalog 1.0发布。该项目由Hortonworks 在2010年3月份提出,HCatalog主要用于解决数据存储、元数据的问题,主要解决HDFS的瓶颈,它提供了一个地方来存储数据的状态信息,这使得数据清理和归档工具可以很容易的进行处理。
- 2011年4月— SGI( Silicon Graphics International )基于SGI Rackable和CloudRack服务器产品线提供Hadoop优化的解决方案。
- 2011年5月— EMC为客户推出一种新的基于开源Hadoop解决方案的数据中心设备——GreenPlum HD,以助其满足客户日益增长的数据分析需求并加快利用开源数据分析软件。Greenplum是EMC在2010年7月收购的一家开源数据仓库公司。
- 2011年6月— Calxeda公司(之前公司的名字是Smooth-Stone)发起了“开拓者行动”,一个由10家软件公司组成的团队将为基于Calxeda即将推出的ARM系统上芯片设计的服务器提供支持。并为Hadoop提供低功耗服务器技术。
- 2011年6月— 数据集成供应商Informatica发布了其旗舰产品,产品设计初衷是处理当今事务和社会媒体所产生的海量数据,同时支持Hadoop。
- 2011年7月— Yahoo!和硅谷风险投资公司 Benchmark Capital创建了Hortonworks公司,旨在让Hadoop更加鲁棒(可靠),并让企业用户更容易安装、管理和使用Hadoop。
- 2011年8月— Cloudera公布了一项有益于合作伙伴生态系统的计划——创建一个生态系统,以便硬件供应商、软件供应商以及系统集成商可以一起探索如何使用Hadoop更好的洞察数据。
- 2011年8月— Dell与Cloudera联合推出Hadoop解决方案——Cloudera Enterprise。Cloudera Enterprise基于Dell PowerEdge C2100机架服务器以及Dell PowerConnect 6248以太网交换机
参考
参考一:Hadoop的概念、版本、发展史
参考二:CSDN Hadoop
参考三:Hadoop概念了解及展望
参考四:博客