当前位置: 开发笔记 > 编程语言 > 正文

大数据｜Hadoop系统

作者：Angkaka | 来源：互联网 | 2023-08-04 20:24

目录📚Hadoop介绍

&＃x1f4da;Hadoop介绍

&＃x1f4da;Hadoop优点

&＃x1f4da;Hadoop的体系结构

&＃x1f430;HDFS的体系结构

&＃x1f430;MapReduce的体系结构

&＃x1f430;HDFS和MapReduce的协同作用

&＃x1f4da;Hadoop与分布式开发

&＃x1f430;MapReduce计算模型

&＃x1f4da;Hadoop介绍

Hadoop是一个开源的可运行于大规模集群上的分布式并行编程框架&＃xff0c;它实现了Map/Reduce计算模型。

狭义上说&＃xff0c;Hadoop的核心组件有&＃xff1a;

HDFS&＃xff08;分布式文件系统&＃xff09;&＃xff1a;解决海量数据存储
MapReduce&＃xff08;分布式运算编程框架&＃xff09;&＃xff1a;解决海量数据计算
YARN&＃xff08;作业调度和集群资源管理的框架&＃xff09;&＃xff1a;解决资源任务调度

&＃x1f4da;Hadoop优点

Hadoop是可靠的&＃xff1a;因为它假设计算元素和存储会失败&＃xff0c;因此它维护多个工作数据副本&＃xff0c;确保能够针对失败的节点重新分布处理。
Hadoop是高效的&＃xff1a;因为它以并行的方式工作&＃xff0c;通过并行处理加快处理速度。
Hadoop是可伸缩的&＃xff1a;它能够处理PB级数据&＃xff0c;即有扩容能力。
Hadoop成本低&＃xff1a;依赖于廉价服务器&＃xff0c;因此它的成本比较低&＃xff0c;任何人都可以使用。

由于Hadoop优势突出&＃xff0c;基于Hadoop的应用已经遍地开花&＃xff0c;尤其是互联网领域。

&＃x1f4da;Hadoop的体系结构

HDFS是一种分布式文件系统&＃xff0c;运行于大型商用机集群&＃xff0c;HDFS提供了高可靠性的底层存储支持。
HBase位于结构化存储层&＃xff0c;是一个分布式的列存储数据库。
MapReduce是一种分布式数据处理模式和执行环境。
Zookeeper是一个分布式的&＃xff0c;高可用性的协调服务&＃xff0c;提供分布式锁之类的基本服务。
Hive是一个建立在Hadoop基础上的数据仓库&＃xff0c;用于管理存储于HDFS或HBase中的结构化/半结构化数据。
Pig提供一种数据流语言&＃xff0c;程序员可以将复杂的数据分析任务实现为Pig操作上的数据流脚本&＃xff0c;这些脚本可自动转换为MapRduce任务链&＃xff0c;在Hadoop上执行&＃xff0c;从而简化工作难度。
Sqoop是SQL-to-Hadoop的缩写&＃xff0c;为在RDBMS与Hadoop平台间进行快速批量数据交换。

&＃x1f430;HDFS的体系结构

一个HDFS集群是由一个NameNode和若干个DataNode组成。
NameNode作为主服务器&＃xff0c;管理文件系统的命名空间和客户端对文件的访问操作&＃xff1b;
集群中的DataNode管理存储的数据。
HDFS支持用户以文件的形式存储数据&＃xff0c;文件被分为若干个数据块&＃xff0c;而且这若干个数据块存放在一组DataNode上。

NameNode&＃xff1a;就是master&＃xff0c;它是一个主管&＃xff0c;管理者。管理HDFS的命名空间&＃xff0c;管理数据块(Block)映射信息&＃xff0c;配置副本策略&＃xff0c;处理客户端读写请求。

DataNode&＃xff1a;就是Slave&＃xff0c;它是劳累的打工人。NameNode下达命令&＃xff0c;DataNode执行实际操作。存储实际的数据块&＃xff0c;执行数据块的读写操作&＃xff0c;定时向NameNode汇报block信息。

&＃x1f430;MapReduce的体系结构

MapReduce是一种并行编程模式。基于它可以将任务分发到由上千台商用计算机组成的集群上&＃xff0c;并以一种高容错的方式并行处理大量的数据集&＃xff0c;实现Hadoop的并行任务处理功能。
MapReduce框架是由一个单独运行在主节点上的JobTracker和运行在每个集群从节点上的TaskTracker共同组成的。
主节点负责调度构成一个作业的所有任务&＃xff0c;这些任务分布在不同的从节点上&＃xff1b;主节点监控它们的执行情况&＃xff0c;并且重新执行之前失败的任务。从节点仅负责由主节点指派的任务。
当一个Job被提交时&＃xff0c;JobTracker接受到提交作业和配置信息之后&＃xff0c;就会将配置信息等分发给从节点&＃xff0c;同时调度任务并监控TaskTracker的执行。

&＃x1f31f;MapReduce编程模型与Hadoop分布式开发息息相关&＃xff0c;下文会做详细介绍。

&＃x1f430;HDFS和MapReduce的协同作用

HDFS在集群上实现了分布式文件系统&＃xff0c;MapReduce在集群上实现了分布式计算和任务处理。
HDFS在MapReduce任务处理中提供了文件操作和存储等支持&＃xff0c;MapReduce在HDFS的基础上实现了任务的分发、跟踪、执行等工作&＃xff0c;并收集结果。
TaskTracker和DataNode需配对地设置在同一个物理的从节点服务器上&＃xff1b;JobTracker和NameNode可以设置在同一个物理主控节点服务器上&＃xff0c;也可以分开设置

HDFS和MapReduce共同组成了Hadoop分布式系统体系结构的核心&＃xff0c;二者相互作用&＃xff0c;完成了Hadoop分布式集群的主要任务。

&＃x1f4da;Hadoop与分布式开发

基于MapReduce的处理过程示例--文档词频统计&＃xff1a;WordCount

将大数据集分解为成百上千个小数据集&＃xff0c;每个&＃xff08;或若干个&＃xff09;数据集分别由集群中的一个节点进行处理并生成中间结果&＃xff0c;然后这些中间结果又由大量的节点合并&＃xff0c;形成最终结果。
MapReduce框架下并行程序结构中&＃xff0c;需要用户完成的工作仅仅是根据任务编写Map和Reduce函数。

&＃x1f430;MapReduce计算模型

MapReduce编程模型的原理&＃xff1a;利用一个输入的key/value对集合&＃xff0c;来产生一个输出的key/value对集合。这个过程基于Map和Reduce这两个用户自定义函数实现。

Map阶段&＃xff1a;是在单机上进行的针对一小块数据的计算过程&＃xff0c;简单来说&＃xff0c;就是按照给定的方法进行筛选分类。
Shuffle阶段&＃xff1a;在map阶段的基础上&＃xff0c;进行数据移动&＃xff0c;为后续的reduce阶段做准备。简单说就是shuffle将同类型的数据进行合并。
Reduce阶段&＃xff1a;对移动后的数据进行处理&＃xff0c;依然是在单机上处理一小份数据&＃xff0c;举个例子&＃xff0c;对Shuffle得到的合并后的数据进行count&＃xff0c;得到sum值。

关于Shuffle&＃xff1a;

shuffle的意思就是洗牌&＃xff0c;它是MapReduce的核心&＃xff0c;也是被称为奇迹发生的地方。MapReduce玩的就是洗数据&＃xff0c;然后让数据出现在该出现的位置。
碎碎念&＃xff1a;

Shuffle阶段所进行的洗牌&＃xff0c;可借助哈希表实现&＃xff0c;将对应的数据放到相应的“桶”里&＃xff0c;从而实现同类型的合并。
MapReduce思想有种“分而治之”的味道。Map负责“分”&＃xff0c;Reduce负责“合”。

参考博客&＃xff1a;Lansonli【Hadoop专栏】

be happy——

推荐阅读

io
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
io
初探Hadoop：第一章概览

本文深入探讨了《Hadoop》第一章的内容，重点介绍了Hadoop的基本概念及其如何解决大数据处理中的关键挑战。 ... [详细]

蜡笔小新 2024-11-24 11:40:47
io
2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南

2012年9月12日，优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分，有一道题目涉及中国人的血型分布情况，具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中，至少有一人为B型血的概率不低于90%，则需要选取的最少人数是多少？该问题不仅考察了概率统计的基本知识，还要求考生具备一定的逻辑推理能力。 ... [详细]

蜡笔小新 2024-11-06 15:25:14
io
PHP中元素的计量单位是什么？

PHP中元素的计量单位是什么？ ... [详细]

蜡笔小新 2024-11-01 15:06:51
io
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
io
探索OpenWrt中的LuCI框架

本文深入探讨了OpenWrt系统中轻量级HTTP服务器uhttpd的工作原理及其配置，重点介绍了LuCI界面的实现机制。 ... [详细]

蜡笔小新 2024-11-24 20:29:37
main
高效且安全的Token存储策略

本文探讨了在不同场景下如何高效且安全地存储Token，包括使用定时器刷新、数据库存储等方法，并针对个人开发者与第三方服务平台的不同需求提供了具体建议。 ... [详细]

蜡笔小新 2024-11-24 17:02:36
io
深入理解PHP中的超全局变量与AJAX技术

本文详细介绍了PHP中的几种超全局变量，包括$GLOBAL、$_SERVER、$_POST、$_GET等，并探讨了AJAX的工作原理及其优缺点。通过具体示例，帮助读者更好地理解和应用这些技术。 ... [详细]

蜡笔小新 2024-11-24 16:35:09
io
解决 MyBatis 批量操作时 BindingException 异常

本文探讨了在使用 MyBatis 进行批量数据处理时遇到的参数绑定异常问题，并提供了详细的解决方案。 ... [详细]

蜡笔小新 2024-11-24 13:03:13
io
41款高效LISP工具助力数据处理全流程

本文由公众号【数智物语】(ID: decision_engine)发布，关注获取更多干货。文章探讨了从数据收集到清洗、建模及可视化的全过程，介绍了41款实用工具，旨在帮助数据科学家和分析师提升工作效率。 ... [详细]

蜡笔小新 2024-11-24 00:11:50
io
Windows环境下Oracle数据库迁移实践

本文详细记录了一次在Windows操作系统下将Oracle数据库的控制文件、数据文件及在线日志文件迁移至外部存储的过程，旨在为后续的集群环境部署做好准备。 ... [详细]

蜡笔小新 2024-11-23 19:57:51
io
实现Win10与Linux服务器的SSH无密码登录

本文介绍了如何在Windows 10环境下使用Git工具，通过配置SSH密钥对，实现与Linux服务器的无密码登录。主要步骤包括生成本地公钥、上传至服务器以及配置服务器端的信任关系。 ... [详细]

蜡笔小新 2024-11-23 15:50:03
controller
MVC模式下的电子取证技术初探

本文探讨了在MVC（模型-视图-控制器）架构下进行电子取证的技术方法，通过实际案例分析，提供了详细的取证步骤和技术要点。 ... [详细]

蜡笔小新 2024-11-23 12:13:06
io
日志处理流程：Flume+MapReduce+Hive+Sqoop+MySQL

本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS，然后通过MapReduce清洗数据，使用Hive进行数据分析，并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]

蜡笔小新 2024-11-13 18:47:34
io
Spark MLlib 之 Basic Statistics

SparkMLlib提供了一些基本的统计学的算法，下面主要说明一下：1、Summarystatistics对于RDD[Vector]类型，SparkMLlib提供了colStats ... [详细]

蜡笔小新 2024-10-15 12:46:50

Angkaka

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章