当前位置: 开发笔记 > 后端 > 正文

大数据学习——Hadoop平台及相关生态系统

作者：地之南_816 | 来源：互联网 | 2023-05-18 18:21

*2006年8月9日，谷歌首席执行官埃里克·施密特在搜索引擎大会上首次提出“云计算”（CloudComputing）概念。2006年之前谷歌发表了3篇经典的论文，分别介绍了谷歌的分

*2006年8月9日，谷歌首席执行官埃里克·施密特在搜索引擎大会上首次提出“云计算”（Cloud Computing）概念。
2006年之前谷歌发表了3篇经典的论文，分别介绍了谷歌的分布式文件系统GFS、分布式数据存储系统BigTable和分布式计算框架（MapReduce）。

分布式文件系统GFS

谷歌文件系统简称为GFS，文件大小可以达到TB级，甚至是数百TB。Hadoop的文件系统HDFS正是借鉴了GFS的思想，是它的开源实现。

分布式计算框架MapReduce

在处理海量（TB级以上）的数据时，如果想在一定的时间内完成工作，往往需要将这些计算分布在成百上千台主机上，让计算任务并行执行，来加快处理效率。
MapReduce把对数据的操作都简化成两个简单运算，一个叫“Map”映射，另一个叫“Reduce”规约。我们编程时只需要考虑把计算分解成这两个简单运算，而不必关心如何处理上面提到的底层细节。

分布式数据存储系统BigTable

BigTable是一个分布式的结构化数据存储系统，它被设计用来查询和处理海量数据，通常是分布在数千台普通服务器上的TB甚至是PB级的数据。

Hadoop平台
Hadoop是开源组织Apache旗下的一个分布式计算平台，它的高容错性、高扩展性等优点可以让用户在普通廉价的硬件设备上搭建分布式系统，实现对集群的控制和管理。同时它提供了分布式基础架构，允许用户轻松快捷开发并行应用程序，实现海量数据的管理和分布式基础架构，而不需要关注底层的实现细节。
Hadoop框架最核心的设计就是HDFS和MapReduce。
随着业务发展以及业务需要的多样化，Hadoop相关的生态圈也越来越丰富，Hadoop下的Common、Avro、ZooKeeper、Hives、HBase、Sqoop等子项目提供互补性服务或在核心层上提供了更高层的服务。
Hadoop的核心

HDFS

MapReduce

Hadoop第一个版本存在着单点故障、小文件存储等一系列问题，另外从Hadoop的长远发展来看，MapReduce的JobTracker/TaskTracker机制需要大规模地调整来修复它的可扩展性、内存消耗、线程模型、可靠性和性能上的缺陷。
Hadoop2.0内核主要由3部分组成：HDFS、MapReduce和YARN。
YARN利用异步模型对MapReduce框架的一些关键逻辑结构（如JobInprogress、TaskInProgress等）进行了重写，相比于MRv1具有更快的计算速度。
Hadoop2.0支持多框架

Hadoop相关生态系统

这里写图片描述

产品	描述
HBase	面向列的分布式数据库
ZooKeeper	分布式协作服务
Hive	适用于ETL，数据仓库
Sqoop	关系数据ETL工具
Avro	用于支持大批量数据交换的应用，数据序列化系统
Pig	数据处理工具，在MapReduce上构建的查询语言（SQL-LIKE），适用于大量并行计算
Flume	日志收集工具
Ambari	集群监控与管理
Mathout	一个机器学习和数据挖掘的库
Oozie	工作流引擎
Hue	Hadoop图形化界面
Chukwa	基于Hadoop集群中监控系统，WatchDog
ambari	就是创建、管理、监视 Hadoop 的集群（ Hive，Hbase，Sqoop，Zookeeper等）

其它工具：

Apache Flink：流式计算框架
Whirr：一组静态库，让用户能够在Amazon EC2、Rackspace或任何虚拟基础架构之上构建Hadoop集群
BigTop：一个正式的流程和框架，用于对Hadoop的子项目和相关组件进行打包和互操作性测试。
Tableau Timeline：数据可视化工具，包括：Tableau Desktop，Tableau Server，Tableauonline，Tableau Public和Tableau Reader

Hadoop在各大公司的应用

微软
采用Hortonworks的HDP，构建了自己的Windows Azure HDInsight
亚马逊
弹性MapReduce服务EMR
阿里巴巴
云梯Hadoop，另外开发了自己的Hadoop——ADFS
Facebook
eBay
Visa

Hadoop的发行版

Cloudera CDH、Manager和Enterprice
CDH3U6 对应Apache Hadoop版本号为0.20.2，在生产环境使用比较多。
Hortonworks 、 Data Platform
MapR
IBM InfoSphere BigInsights
GreenPlum的Pivotal HD
Amazon Elastic MapReduce(EMR)
Windows Azure 、HDInsight

推荐阅读

memcache
NoSQL 数据查询与检索技术解析

NoSQL数据库，即非关系型数据库，有时也被称作Not Only SQL，是一种区别于传统关系型数据库的管理系统。这类数据库设计用于处理大规模、高并发的数据存储与查询需求，特别适用于需要快速读写大量非结构化或半结构化数据的应用场景。NoSQL数据库通过牺牲部分一致性来换取更高的可扩展性和性能，支持分布式部署，能够有效应对互联网时代的海量数据挑战。 ... [详细]

蜡笔小新 2024-10-28 18:13:15
队列
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
队列
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
队列
马蜂窝数据总监分享：从数仓到数据中台，大数据演进技术选型最优解

大家好，今天分享的议题主要包括几大内容：带大家回顾一下大数据在国内的发展，从传统数仓到当前数据中台的演进过程；我个人认为数 ... [详细]

蜡笔小新 2023-10-14 14:20:07
队列
流处理中的计数挑战与解决方案

本文探讨了在流处理中进行计数的各种技术和挑战，并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性，还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]

蜡笔小新 2024-11-20 13:50:01
队列
2017年软件开发领域的七大变革

随着技术的不断进步，2017年对软件开发人员而言将充满挑战与机遇。本文探讨了开发人员需要适应的七个关键变化，包括人工智能、聊天机器人、容器技术、应用程序版本控制、云测试环境、大众开发者崛起以及系统管理的云迁移。 ... [详细]

蜡笔小新 2024-11-19 20:17:20
队列
Python 微服务架构设计是否合理？探讨与分析

本文探讨了使用Python进行微服务架构设计的合理性和适用性。首先，介绍了微服务的基本概念及其在现代软件开发中的重要性。接着，通过具体的业务场景，详细分析了Python在微服务架构设计中的优势和挑战。文章还讨论了在实际应用中可能遇到的问题，并提出了相应的解决方案。希望本文能够为从事Python微服务开发的技术人员提供有价值的参考和指导。 ... [详细]

蜡笔小新 2024-11-06 11:21:38
多线程
【并发编程】全面解析 Java 内存模型，一篇文章带你彻底掌握

本文深入解析了 Java 内存模型（JMM），从基础概念到高级特性进行全面讲解，帮助读者彻底掌握 JMM 的核心原理和应用技巧。通过详细分析内存可见性、原子性和有序性等问题，结合实际代码示例，使开发者能够更好地理解和优化多线程并发程序。 ... [详细]

蜡笔小新 2024-11-02 09:09:51
队列
HDFS基础知识与数据读写机制详解

本文详细介绍了HDFS的基础知识及其数据读写机制。首先，文章阐述了HDFS的架构，包括其核心组件及其角色和功能。特别地，对NameNode进行了深入解析，指出其主要负责在内存中存储元数据、目录结构以及文件块的映射关系，并通过持久化方案确保数据的可靠性和高可用性。此外，还探讨了DataNode的角色及其在数据存储和读取过程中的关键作用。 ... [详细]

蜡笔小新 2024-10-30 11:58:25
rabbitmq
分布式一致性算法：Paxos 的企业级实战

一、简介首先我们这个平台是ES专题技术的分享平台，众所周知，ES是一个典型的分布式系统。在工作和学习中，我们可能都已经接触和学习过多种不同的分布式系统了，各 ... [详细]

蜡笔小新 2024-10-21 16:29:21
rabbitmq
apache各版本软件下载地址(含历史版本)

转载：https:blog.csdn.nethigh2011articledetails70155431清华大学镜像网：https:mirrors.tu ... [详细]

蜡笔小新 2024-10-13 14:29:46
多线程
一次上线事故，30岁+的程序员踩坑经验之谈

本文主要介绍了一位30岁+的程序员在一次上线事故中踩坑的经验之谈。文章提到了在双十一活动期间，作为一个在线医疗项目，他们进行了优惠折扣活动的升级改造。然而，在上线前的最后一天，由于大量数据请求，导致部分接口出现问题。作者通过部署两台opentsdb来解决问题，但读数据的opentsdb仍然经常假死。作者只能查询最近24小时的数据。这次事故给他带来了很多教训和经验。 ... [详细]

蜡笔小新 2023-12-10 17:25:31
多线程
Hadoop与大数据技术大会将于11月30日开幕

11月26日，由中国计算机协会（CCF）主办，CCF大数据专家委员会协办，CSDN承办的Hadoop与大数据技术大会（Hadoop&BigDataTechnology ... [详细]

蜡笔小新 2023-10-17 17:47:11
多线程
本文_大数据之非常详细Sqoop安装和基本操作

篇首语：本文由编程笔记#小编为大家整理，主要介绍了大数据之非常详细Sqoop安装和基本操作相关的知识，希望对你有一定的参考价值。大数据大数据之 ... [详细]

蜡笔小新 2023-10-15 15:25:37
队列
不会搭建大数据平台，我被老板优化了...

不会,搭建,大数,据,平台,我 ... [详细]

蜡笔小新 2023-10-12 16:44:49

地之南_816

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章