热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

了解Hadoop生态圈

ApacheHadoop是什么简介相关项目HIVEHadoo

  • Apache Hadoop是什么
    • 简介
    • 相关项目
      • HIVE
    • Hadoop10与20的比较
      • YARN项目背景
  • 附录
    • Hadoop简单历程
    • Hadoop 发展历程
  • 参考

Apache Hadoop是什么

简介

    Apache Hadoop是Apache基金会下的开源的(遵循ASF 2.0)软件项目,提供可靠的、可扩展的、分布式计算。
Apache Hadoop 软件库是一种框架,允许开发人员,仅使用简单的编程模式,基于计算机集群的,实现大数据的分布式处理。
Apache Hadoop是Google开源系统的Java实现,包括以下模块:
- Hadoop Common:基础模块,支撑其他模块
- Hadoop Distributed File System, HDFS 实现GFS,一种分布式文件系统,提供大数据的高吞吐量访问。
- YARN Yet Another Resource Negotiate,一种任务调度和资源管理的框架。
- MapReduce 实现MapReduce,一种,基于YARN的、处理大数据的并行计算框架。YARN同时支持SparkStorm等其他并行框架。

相关项目

Hadoop生态圈

Hadoop生态圈

ambari:基于Web的Apache 集群的配置、管理、监控工具。
avro:数据序列化系统。
HBase:可扩展的、面向列的分布式数据库,支持大表的结构化数据存储。
Hive:批量查询与分析的数据仓库基础设施。支持数据摘要和临时查询。
mathout:可扩展的机器学习和数据挖掘库。
Pig:解决并行计算的高级数据流语言以及计算框架。
spark:Hadoop数据的高速、通用计算引擎。支持多种应用:ETL、机器学习、流处理、图谱计算。
zookeeper:高性能的分布式协调服务。

HIVE

  • Hive是建立在 Hadoop 上的数据仓库基础构架,基于MapReduce计算框架。
  • Hive提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop中的大规模数据的机制。
  • Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer无法完成的复杂的分析工作。
  • Hive 最佳使用场合是大数据集的批处理作业,例如,网络日志分析。不适应低延时的事务,例如OLAP。

Hadoop1.0与2.0的比较

Hadoop版本差异

Hadoop 2.0之后,引入YARN,支持其他分布式计算框架。例如Spark内存计算框架、Strorm实时计算框架。

YARN项目背景

直接原因,是 Map Reduce v1.0的问题
1. 扩展性差、单点故障
2. 难以支持MR v1.0之外的其他计算框架
其他原因,多种计算框架之间难以共享数据
1. MR离线计算框架
2. Storm实时计算框架
3. Spark内存计算框架

附录

Hadoop简单历程

2003-2004年  Google 公布GFS、MapReduce 思想
2003-2005年 Doug Cutting受启发,开发HDFS以及MapReduce项目,使Nutch的性能飙升
2005年 Hadoop作为Lucence的子项目并入Apache
2006年 Hadoop独立成为项目


名字起源:Doug Cutting 儿子的黄色大象玩具名字

Hadoop 发展历程

  • 2004年— 最初的版本(现在称为HDFS和MapReduce)由Doug Cutting和Mike Cafarella开始实施。
  • 2006年1月— Doug Cutting加入雅虎。
  • 2006年2月— Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。 2006年2月—
  • 雅虎的网格计算团队采用Hadoop。 2006年4月— 标准排序(10 GB每个节点)在188个节点上运行47.9个小时。
  • 2006年5月— 雅虎建立了一个300个节点的Hadoop研究集群。
  • 2006年11月— 研究集群增加到600个节点。
  • 2006年12月— 标准排序在20个节点上运行1.8个小时,100个节点3.3小时,500个节点5.2小时,900个节点7.8个小时。
  • 2007年1月— 研究集群到达900个节点。 2007年4月— 研究集群达到两个1000个节点的集群。
  • 2008年4月— 赢得世界最快1TB数据排序在900个节点上用时209秒。
  • 2008年7月— 雅虎测试节点增加到4000个
  • 2008年9月— 2008年11月— Google宣布其MapReduce用68秒对1TB的程序进行排序
  • 2008年10月— 研究集群每天装载10TB的数据。
  • 2008年— 淘宝开始投入研究基于Hadoop的系统–云梯。
    云梯总容量约9.3PB,共有1100台机器,每天处理18000道作业,扫描500TB数据。
  • 2009年3月— 17个集群总共24 000台机器。 2009年3月— Cloudera推出CDH(Cloudera’s Dsitribution Including Apache Hadoop)
  • 2009年4月— 赢得每分钟排序,雅虎59秒内排序500GB(在1400个节点上)和173分钟内排序100 TB数据(在3400个节点上)。
  • 2009年5月— Yahoo的团队使用Hadoop对1 TB的数据进行排序只花了62秒时间。
  • 2009年7月— Hadoop Core项目更名为Hadoop Common;
  • 2009年7月— MapReduce 和 Hadoop Distributed File System (HDFS) 成为Hadoop项目的独立子项目。
  • 2009年7月— Avro 和 Chukwa 成为Hadoop新的子项目。
  • 2009年9月— 亚联BI团队开始跟踪研究Hadoop
  • 2009年12月—亚联提出橘云战略,开始研究Hadoop 2010年5月— Avro脱离Hadoop项目,成为Apache顶级项目。
  • 2010年5月— HBase脱离Hadoop项目,成为Apache顶级项目。 2010年5月— IBM提供了基于Hadoop 的大数据分析软件——InfoSphere BigInsights,包括基础版和企业版。
  • 2010年9月— Hive( Facebook) 脱离Hadoop,成为Apache顶级项目。
    2011年1月— ZooKeeper 脱离Hadoop,成为Apache顶级项目。 2011年3月— Apache Hadoop获得Media Guardian Innovation Awards 。
  • 2011年3月— Platform Computing 宣布在它的Symphony软件中支持Hadoop MapReduce API。
  • 2011年5月— Mapr Technologies公司推出分布式文件系统和MapReduce引擎——MapR Distribution for Apache Hadoop。
  • 2011年5月— HCatalog 1.0发布。该项目由Hortonworks 在2010年3月份提出,HCatalog主要用于解决数据存储、元数据的问题,主要解决HDFS的瓶颈,它提供了一个地方来存储数据的状态信息,这使得数据清理和归档工具可以很容易的进行处理。
  • 2011年4月— SGI( Silicon Graphics International )基于SGI Rackable和CloudRack服务器产品线提供Hadoop优化的解决方案。
  • 2011年5月— EMC为客户推出一种新的基于开源Hadoop解决方案的数据中心设备——GreenPlum HD,以助其满足客户日益增长的数据分析需求并加快利用开源数据分析软件。Greenplum是EMC在2010年7月收购的一家开源数据仓库公司。
  • 2011年6月— Calxeda公司(之前公司的名字是Smooth-Stone)发起了“开拓者行动”,一个由10家软件公司组成的团队将为基于Calxeda即将推出的ARM系统上芯片设计的服务器提供支持。并为Hadoop提供低功耗服务器技术。
  • 2011年6月— 数据集成供应商Informatica发布了其旗舰产品,产品设计初衷是处理当今事务和社会媒体所产生的海量数据,同时支持Hadoop。
  • 2011年7月— Yahoo!和硅谷风险投资公司 Benchmark Capital创建了Hortonworks公司,旨在让Hadoop更加鲁棒(可靠),并让企业用户更容易安装、管理和使用Hadoop。
  • 2011年8月— Cloudera公布了一项有益于合作伙伴生态系统的计划——创建一个生态系统,以便硬件供应商、软件供应商以及系统集成商可以一起探索如何使用Hadoop更好的洞察数据。
  • 2011年8月— Dell与Cloudera联合推出Hadoop解决方案——Cloudera Enterprise。Cloudera Enterprise基于Dell PowerEdge C2100机架服务器以及Dell PowerConnect 6248以太网交换机

参考

参考一:Hadoop的概念、版本、发展史

参考二:CSDN Hadoop

参考三:Hadoop概念了解及展望

参考四:博客


推荐阅读
  • 本文探讨了使用Python实现监控信息收集的方法,涵盖从基础的日志记录到复杂的系统运维解决方案,旨在帮助开发者和运维人员提升工作效率。 ... [详细]
  • 本文探讨了如何使用Scrapy框架构建高效的数据采集系统,以及如何通过异步处理技术提升数据存储的效率。同时,文章还介绍了针对不同网站采用的不同采集策略。 ... [详细]
  • 流处理中的计数挑战与解决方案
    本文探讨了在流处理中进行计数的各种技术和挑战,并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性,还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]
  • 如何使用Maven将依赖插件一并打包进JAR文件
    本文详细介绍了在使用Maven构建项目时,如何将所需的依赖插件一同打包进最终的JAR文件中,以避免手动部署依赖库的麻烦。 ... [详细]
  • 本文深入探讨了MySQL中的高级特性,包括索引机制、锁的使用及管理、以及如何利用慢查询日志优化性能。适合有一定MySQL基础的读者进一步提升技能。 ... [详细]
  • 将XML数据迁移至Oracle Autonomous Data Warehouse (ADW)
    随着Oracle ADW的推出,数据迁移至ADW成为业界关注的焦点。特别是XML和JSON这类结构化数据的迁移需求日益增长。本文将通过一个实际案例,探讨如何高效地将XML数据迁移至ADW。 ... [详细]
  • Hadoop MapReduce 实战案例:手机流量使用统计分析
    本文通过一个具体的Hadoop MapReduce案例,详细介绍了如何利用MapReduce框架来统计和分析手机用户的流量使用情况,包括上行和下行流量的计算以及总流量的汇总。 ... [详细]
  • 面对众多的数据分析工具,如何选择最适合自己的那一个?对于初学者而言,了解并掌握几种核心工具是快速入门的关键。本文将从数据处理的不同阶段出发,推荐三种广泛使用的数据分析工具。 ... [详细]
  • 如何高效学习鸿蒙操作系统:开发者指南
    本文探讨了开发者如何更有效地学习鸿蒙操作系统,提供了来自行业专家的建议,包括系统化学习方法、职业规划建议以及具体的开发技巧。 ... [详细]
  • 汇总了2023年7月7日最新的网络安全新闻和技术更新,包括最新的漏洞披露、工具发布及安全事件。 ... [详细]
  • Canopy环境安装与使用指南
    《利用Python进行数据分析》一书推荐使用EPDFree版本的环境,然而随着技术的发展,目前更多人倾向于使用Canopy。本文将详细介绍Canopy的安装及使用方法。 ... [详细]
  • MVC模式下的电子取证技术初探
    本文探讨了在MVC(模型-视图-控制器)架构下进行电子取证的技术方法,通过实际案例分析,提供了详细的取证步骤和技术要点。 ... [详细]
  • 本文介绍了MySQL窗口函数的基本概念、应用场景及常见函数的使用方法。窗口函数在处理复杂查询时非常有用,例如计算每个用户的订单排名、环比增长率、以及动态聚合等。 ... [详细]
  • 本文介绍如何通过整合SparkSQL与Hive来构建高效的用户画像环境,提高数据处理速度和查询效率。 ... [详细]
  • 在开发过程中,有时需要提供用户创建数据库的功能。本文介绍了如何利用 .NET 和 ADOX 在应用程序中实现创建 Access 数据库,并详细说明了创建数据库及表的具体步骤。 ... [详细]
author-avatar
CCTV2财经2677
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有