hadoop生态圈的理解「建议收藏」

作者：蹼蹼蹡蹡Joseph | 来源：互联网 | 2023-08-11 15:17

hadoop生态圈的理解「建议收藏」hadoop部分：hadoop生态圈的理解（HDFS，MapReduce，HBASE，zookeeper，hive，sqoop，flume，ka

hadoop部分：hadoop生态圈的理解（HDFS，MapReduce，HBASE，zookeeper，hive，sqoop，flume，kafka，yarn，spark）

一、简介
Hadoop是一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。

hadoop生态圈的理解「建议收藏」

二、核心
Hadoop对应于Google三驾马车：HDFS对应于GFS，即分布式文件系统，MapReduce即并行计算框架，HBase对应于BigTable，即分布式NoSQL列数据库，外加Zookeeper对应于Chubby，即分布式锁设施。

hadoop生态圈的理解「建议收藏」
Hadoop核心系统

Hadoop大数据应用生态中最主要的组件及其关系

Hadoop Common

Hadoop Common是在Hadoop0.2版本之后分离出来的HDFS和MapReduce独立子项目的内容，是Hadoop的核心部分，能为其他模块提供一些常用工具集，如序列化机制、Hadoop抽象文件系统FileSystem、系统配置工具Configuration，并且在为其平台上的软件开发提供KPI等。其他Hadoop子项目都是以此为基础而建立来的。

HDFS

HDFS（Hadoop分布式文件系统）源自于Google的GFS论文，发表于2003年10月，HDFS是GFS的实现版。HDFS是Hadoop体系中数据存储管理的基础，它是一个高度容错的系统，能检测和应对硬件故障，在低成本的通用硬件上运行。HDFS简化了文件的一次性模型，通过流式数据访问，提供高吞吐量应用程序数据访问功能，适用带有数据集的应用程序。HDFS提供一次写入多次读取的机制，数据以块的形式，同时分布存储在不同的物理机器上。
HDFS默认的最基本的存储单位是64MB的数据块，和普通文件系统一样，HDFS中的文件被分成64MB一块的数据块存储。它的开发是基于流数据模式访问和处理超大文件的需求。

在节点出现故障时，HDFS会继续运行，用户不会察觉到明显的中断情况。这是由于HDFS的高可用性和容错性是通过软件来实现的，也由此使得它不需要价格高的设备来保障，大街小巷能买到的普通硬件就能用作搭建HDFS。
HDFS并不是所有场景都适用。
1）由于HDFS的优势是海量数据传输，在低延迟的数据访问中就并不适用，10ms以下的访问可以无视HDFS。HDFS会用延迟来换取数据的高吞吐量。
2）存在的小文件较多时，HDFS也不适用。这主要是由于HDFS的整个文件存储在NameNode中，它能对数据库的存储位置进行定位，因此NameNode的内存量是被文件的数量限制的。而大量的小文件会占用很大一部分内存，在进行数据处理时会合并这些小文件。
3）在多处写和随机修改的场景中，由于HDFS的文件不支持多个写入或任意位置的修改，所以HDFS也不适用。

MapReduce

Mapduce（分布式计算框架）源自于Google的MapReduce论文，发表于2004年12月，Hadoop MapReduce是Google Reduce 克隆版。MapReduce是一种分布式计算模型，用以进行海量数据的计算。它屏蔽了分布式计算框架细节，将计算抽象成Map 和Reduce两部分，其中Map对数据集上的独立元素进行指定的操作，生成键-值对形式中间结果。Reduce则对中间结果中相同“键”的所有“值”进行规约，以得到最终结果。MapReduce非常适合在大量计算机组成的分布式并行环境里进行数据处理。

HBase

Hbase（分布式列存数据库）源自Google的BigTable论文，发表于2006年11月，HBase是Google Table的实现。HBase是一个建立在HDFS之上，面向结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。HBase采用了BigTable的数据模型，即增强的稀疏排序映射表（Key/Value）,其中，键由行关键字、列关键字和时间戳构成。HBase提供了对大规模数据的随机、实时读写访问，同时，HBase中保存的数据可以使用MapReduce来处理，它将数据存储和并行计算完美地结合在一起。

Flume（日志收集工具）是Cloudera开源的日志系统收集系统，具有分布式、高可靠、高容错、易于定制和扩展的特点。它将数据从产生、传输、处理并最终写入目标的路径的过程抽象为数据流，在具体的数据流中，数据源支持在Flume中定制数据发送方，从而支持收集各种不同协议数据。同时，Flume数据流提供对日志数据进行简单处理的能力，如过滤、格式转换等。此外，Flume还具有能够将日志写往各种数据目标（可定制）的能力。总的来说，Flume是一个可扩展、适合复杂环境的海量日志收集系统，当然也可以用于收集其他类型数据。

Mahout

Mahout（数据挖掘算法库）起源于2008年，最初是Apache Lucent的子项目，它在极端的时间内取得了长足的发展，现在是Apache的顶级项目。Mahout的主要目标是创建一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便、快捷地创建智能应用程序。Mahout现在已经包含了聚类、分类、推荐引擎（协同过滤）和频繁集挖掘等广大使用的数据挖掘算法。除了算法，Mahout还包含数据的输入/输出工具、与其他存储系统（如数据库、MangoDB或Cassadra）集成的数据挖掘支持架构。

产品	描述
HDFS	分布式计算框架，提供存储与传输，海量数据，优点是可以在任何机器上运行，廉价，缺点是不适合太多的磁盘小文件
MapReduce	用于对海量数据的计算和分析，由map端和reduce端组成，键值对的形式
HBase	面向列的分布式数据库，可伸缩，高可靠，采用key和value的形式，key由行关键字、列关键字、时间戳组成，提供了随机实时读写
ZooKeeper	分布式协作服务，解决分布式环境下集群的管理
Hive	适用于ETL，数据仓库，分为内表和外表，通常用于分布式离线分析和分布的统计
Sqoop	关系数据ETL工具，传统数据库到hadoop之间的传输，数据的导入导出本身是MapReduce的程序，用于数据库和hadoop之间的转移
Avro	用于支持大批量数据交换的应用，数据序列化系统
Pig	数据处理工具，在MapReduce上构建的查询语言（SQL-LIKE），适用于大量并行计算
Flume	日志收集工具，在收集的过程中会执行简单的处理，过滤和格式的转换
Ambari	集群监控与管理
Mathout	一个机器学习和数据挖掘的库
Oozie	工作流引擎
Hue	Hadoop图形化界面
Chukwa	基于Hadoop集群中监控系统，WatchDog
ambari	就是创建、管理、监视 Hadoop 的集群（ Hive，Hbase，Sqoop，Zookeeper等）

转自：https://blog.csdn.net/wyqwilliam/article/details/81913740

推荐阅读

yarn
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
yarn
不会搭建大数据平台，我被老板优化了...

不会,搭建,大数,据,平台,我 ... [详细]

蜡笔小新 2023-10-12 16:44:49
yarn
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
php
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
php
Kylin 单节点安装

软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]

蜡笔小新 2023-10-16 16:09:42
php
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
php
Hadoop之Yarn

目录1Hadoop1.x和Hadoop2.x架构区别2Yarn概述3Yarn基本架构4Yarn工作机制5作业提交全过程6资源调度器7任务的推测执行1Hadoop1.x和Hadoo ... [详细]

蜡笔小新 2023-10-15 12:16:30
php
马蜂窝数据总监分享：从数仓到数据中台，大数据演进技术选型最优解

大家好，今天分享的议题主要包括几大内容：带大家回顾一下大数据在国内的发展，从传统数仓到当前数据中台的演进过程；我个人认为数 ... [详细]

蜡笔小新 2023-10-14 14:20:07
php
SQL：数据世界的通用语

目录摘要SQL的现在NoSQL,NotOnlySQL要分布式，也要SQL总结引用摘要毫不夸张的说，关系数据库是企业软件系统的核心，企业形形色色信息行为的背后，都有关系数据库的支撑。 ... [详细]

蜡笔小新 2023-10-12 22:29:13
php
博客_2018年博客总结

本文由编程笔记#小编为大家整理，主要介绍了2018年博客总结相关的知识，希望对你有一定的参考价值。前言 ... [详细]

蜡笔小新 2023-10-16 09:15:04
php
new无法执行@Autowired注解，多线程注意事项和如何判断子线程是否全部执行完成

前言最近一段时间在整公司项目里一个功能的优化，用到了多线程处理。期间也是踩了不少的坑，在这里想说下我遇到的问题和注意事项。以及怎样知道启动的那些多线程都 ... [详细]

蜡笔小新 2023-10-15 05:36:26
php
Yarn已过时！Kubeflow实现机器学习调度平台才是未来

来源：AI前线本文约6700字，建议阅读10分钟。本文分析了建设分布式训练平台的过程中的痛点所在，为你介绍Kubeflow与其核心组件及其 ... [详细]

蜡笔小新 2023-10-14 16:58:41
php
黄东旭：关于基础软件产品价值的思考

黄东旭：关于基础软件产品价值的思考-好久没写东西了,正好趁着春节的节后综合症发作写写文章热身一下，记得前几年偶尔会写一些关于TiDB产品功能解读的文章，TiDB5.0发了那么长时间 ... [详细]

蜡笔小新 2023-10-14 16:01:45
config
hbase伪集群搭建

hbase数据存储有三种跑法，跑在本地磁盘上、跑在伪分布式上、跑在完全分布式上--------额。。。官网的文档挺坑爹的，结合官网、百度、谷歌的各种 ... [详细]

蜡笔小新 2023-10-13 19:16:06
config
数据仓库中基本概念

一、数据仓库数据仓库(DataWarehouse)是一个面向主题的、集成的、稳定的且随时间变化的数据集合，用于支持管理人员的决策面向主题主题就是类型的意思。传统数 ... [详细]

蜡笔小新 2023-10-12 16:18:36