热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

大数据学习——Hadoop平台及相关生态系统

*2006年8月9日,谷歌首席执行官埃里克·施密特在搜索引擎大会上首次提出“云计算”(CloudComputing)概念。2006年之前谷歌发表了3篇经典的论文,分别介绍了谷歌的分

*2006年8月9日,谷歌首席执行官埃里克·施密特在搜索引擎大会上首次提出“云计算”(Cloud Computing)概念。
2006年之前谷歌发表了3篇经典的论文,分别介绍了谷歌的分布式文件系统GFS、分布式数据存储系统BigTable和分布式计算框架(MapReduce)。

分布式文件系统GFS

谷歌文件系统简称为GFS,文件大小可以达到TB级,甚至是数百TB。Hadoop的文件系统HDFS正是借鉴了GFS的思想,是它的开源实现。

分布式计算框架MapReduce

在处理海量(TB级以上)的数据时,如果想在一定的时间内完成工作,往往需要将这些计算分布在成百上千台主机上,让计算任务并行执行,来加快处理效率。
MapReduce把对数据的操作都简化成两个简单运算,一个叫“Map”映射,另一个叫“Reduce”规约。我们编程时只需要考虑把计算分解成这两个简单运算,而不必关心如何处理上面提到的底层细节。

分布式数据存储系统BigTable

BigTable是一个分布式的结构化数据存储系统,它被设计用来查询和处理海量数据,通常是分布在数千台普通服务器上的TB甚至是PB级的数据。

Hadoop平台

Hadoop是开源组织Apache旗下的一个分布式计算平台,它的高容错性、高扩展性等优点可以让用户在普通廉价的硬件设备上搭建分布式系统,实现对集群的控制和管理。同时它提供了分布式基础架构,允许用户轻松快捷开发并行应用程序,实现海量数据的管理和分布式基础架构,而不需要关注底层的实现细节。
Hadoop框架最核心的设计就是HDFS和MapReduce。

随着业务发展以及业务需要的多样化,Hadoop相关的生态圈也越来越丰富,Hadoop下的Common、Avro、ZooKeeper、Hives、HBase、Sqoop等子项目提供 互补性服务或在核心层上提供了更高层的服务 。

Hadoop的核心

HDFS

MapReduce

Hadoop第一个版本存在着单点故障、小文件存储等一系列问题,另外从Hadoop的长远发展来看,MapReduce的JobTracker/TaskTracker机制需要大规模地调整来修复它的可扩展性、内存消耗、线程模型、可靠性和性能上的缺陷。
Hadoop2.0内核主要由3部分组成:HDFS、MapReduce和YARN。
YARN利用异步模型对MapReduce框架的一些关键逻辑结构(如JobInprogress、TaskInProgress等)进行了重写,相比于MRv1具有更快的计算速度。
Hadoop2.0支持多框架

Hadoop相关生态系统

这里写图片描述

产品 描述
HBase 面向列的分布式数据库
ZooKeeper 分布式协作服务
Hive 适用于ETL,数据仓库
Sqoop 关系数据ETL工具
Avro 用于支持大批量数据交换的应用,数据序列化系统
Pig 数据处理工具,在MapReduce上构建的查询语言(SQL-LIKE),适用于大量并行计算
Flume 日志收集工具
Ambari 集群监控与管理
Mathout 一个机器学习和数据挖掘的库
Oozie 工作流引擎
Hue Hadoop图形化界面
Chukwa 基于Hadoop集群中监控系统,WatchDog
ambari 就是创建、管理、监视 Hadoop 的集群( Hive,Hbase,Sqoop,Zookeeper等)

其它工具:

  • Apache Flink:流式计算框架
  • Whirr:一组静态库,让用户能够在Amazon EC2、Rackspace或任何虚拟基础架构之上构建Hadoop集群
  • BigTop:一个正式的流程和框架,用于对Hadoop的子项目和相关组件进行打包和互操作性测试。
  • Tableau Timeline:数据可视化工具,包括:Tableau Desktop,Tableau Server,Tableauonline,Tableau Public和Tableau Reader

Hadoop在各大公司的应用

  • 微软
    采用Hortonworks的HDP,构建了自己的Windows Azure HDInsight
  • 亚马逊
    弹性MapReduce服务EMR
  • 阿里巴巴
    云梯Hadoop,另外开发了自己的Hadoop——ADFS
  • Facebook
  • eBay
  • Visa

Hadoop的发行版

  • Cloudera CDH、Manager和Enterprice
    CDH3U6 对应Apache Hadoop版本号为0.20.2,在生产环境使用比较多。
  • Hortonworks 、 Data Platform
  • MapR
  • IBM InfoSphere BigInsights
  • GreenPlum的Pivotal HD
  • Amazon Elastic MapReduce(EMR)
  • Windows Azure 、HDInsight

推荐阅读
  • 我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 马蜂窝数据总监分享:从数仓到数据中台,大数据演进技术选型最优解
    大家好,今天分享的议题主要包括几大内容:带大家回顾一下大数据在国内的发展,从传统数仓到当前数据中台的演进过程;我个人认为数 ... [详细]
  • 构建高可用性Spark分布式集群:大数据环境下的最佳实践
    在构建高可用性的Spark分布式集群过程中,确保所有节点之间的无密码登录是至关重要的一步。通过在每个节点上生成SSH密钥对(使用 `ssh-keygen -t rsa` 命令并保持默认设置),可以实现这一目标。此外,还需将生成的公钥分发到所有节点的 `~/.ssh/authorized_keys` 文件中,以确保节点间的无缝通信。为了进一步提升集群的稳定性和性能,建议采用负载均衡和故障恢复机制,并定期进行系统监控和维护。 ... [详细]
  • 分布式开源任务调度框架 TBSchedule 深度解析与应用实践
    本文深入解析了分布式开源任务调度框架 TBSchedule 的核心原理与应用场景,并通过实际案例详细介绍了其部署与使用方法。首先,从源码下载开始,详细阐述了 TBSchedule 的安装步骤和配置要点。接着,探讨了该框架在大规模分布式环境中的性能优化策略,以及如何通过灵活的任务调度机制提升系统效率。最后,结合具体实例,展示了 TBSchedule 在实际项目中的应用效果,为开发者提供了宝贵的实践经验。 ... [详细]
  • HBase在金融大数据迁移中的应用与挑战
    随着最后一台设备的下线,标志着超过10PB的HBase数据迁移项目顺利完成。目前,新的集群已在新机房稳定运行超过两个月,监控数据显示,新集群的查询响应时间显著降低,系统稳定性大幅提升。此外,数据消费的波动也变得更加平滑,整体性能得到了显著优化。 ... [详细]
  • 不会搭建大数据平台,我被老板优化了...
    不会,搭建,大数,据,平台,我 ... [详细]
  • Kafka 是由 Apache 软件基金会开发的高性能分布式消息系统,支持高吞吐量的发布和订阅功能,主要使用 Scala 和 Java 编写。本文将深入解析 Kafka 的安装与配置过程,为程序员提供详尽的操作指南,涵盖从环境准备到集群搭建的每一个关键步骤。 ... [详细]
  • 【漫画解析】数据已删,存储空间为何未减?揭秘背后真相
    在数据迁移过程中,即使删除了原有数据,存储空间却未必会相应减少。本文通过漫画形式解析了这一现象背后的真相。具体来说,使用 `mysqldump` 命令进行数据导出时,该工具作为 MySQL 的逻辑备份工具,通过连接数据库并查询所需数据,将其转换为 SQL 语句。然而,这种操作并不会立即释放存储空间,因为数据库系统可能保留了已删除数据的碎片信息。文章进一步探讨了如何优化存储管理,以确保数据删除后能够有效回收存储空间。 ... [详细]
  • Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成,其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法,并详细介绍了 MapReduce 日志管理的最佳实践,旨在帮助用户更好地理解和优化日志处理流程,提高系统运维效率。 ... [详细]
  • 分布式一致性算法:Paxos 的企业级实战
    一、简介首先我们这个平台是ES专题技术的分享平台,众所周知,ES是一个典型的分布式系统。在工作和学习中,我们可能都已经接触和学习过多种不同的分布式系统了,各 ... [详细]
  • 前期Linux环境准备1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系4.关闭防火墙5.ssh免登陆6.安装JDK,配置环境变量等集群规划主机 IP安装软件运行进 ... [详细]
  • 【原创】七、Hadoop 2.5.2+zookeeper高可用部署
    一、原理(四大要点)(1)保证元数据一致(edits)namenode(fsimage edits)a、NFSb、journalnodec、zk(2)只有一台namenode对外提 ... [详细]
  • 毕设做到后半部分,需要实现将用户在一段时间(比如1天)内产生的新数据导入HDFS的功能,这样数据仓库中的数据才能和数据库中的数据同步在新建了一个PyDev项目后,需要如下操作(拣最 ... [详细]
  • ftp和文件服务器,ftp和文件服务器的区别
    ftp和文件服务器的区别内容精选换一换obsftp工具于2021年2月9日正式下线,下线后OBS不再对此工具提供维护和客户支持服务,给您带来不便敬请谅解 ... [详细]
author-avatar
地之南_816
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有