初识Hadoop两大核心：HDFS和MapReduce

作者：乐天小散_608 | 来源：互联网 | 2023-05-18 18:25

一、Hadoop是什么?Hadoop是一个能够对大量数据进行分布式处理的软件框架，实现了Google的MapReduce编程模型和框架，能够把应用程序分割成许多的小的工作单元，并把

一、Hadoop是什么?
Hadoop是一个能够对大量数据进行分布式处理的软件框架，实现了Google的MapReduce编程模型和框架，能够把应用程序分割成许多的小的工作单元，并把这些单元放到任何集群节点上执行。在MapReduce中，一个准备提交执行的应用程序称为“作业（job）”，而从一个作业划分出得、运行于各个计算节点的工作单元称为“任务（task）”。此外，Hadoop提供的分布式文件系统（HDFS）主要负责各个节点的数据存储，并实现了高吞吐率的数据读写。

二、Hadoop的主要模块：
Hadoop框架的主要模块包括如下：

Hadoop Common
Hadoop分布式文件系统(HDFS)
Hadoop YARN
Hadoop MapReduce
虽然上述四个模块构成了Hadoop的核心，不过还有其他几个模块。这些模块包括：Ambari、Avro、Cassandra、Hive、 Pig、Oozie、Flume和Sqoop，它们进一步增强和扩展了Hadoop的功能。

三、(Master/Slave)主从架构：
Hadoop使用（Master/Slave）主从架构进行分布式储存和分布式计算。Master负责分配和管理任务，Slave负责实际执行任务。

在分布式存储和分布式计算方面，Hadoop都是用从/从(Master/Slave)架构。在一个配置完整的集群上，想让Hadoop这头大象奔跑起来，需要在集群中运行一系列后台(deamon)程序。不同的后台程序扮演不用的角色，这些角色由NameNode、DataNode、Secondary NameNode、JobTracker、TaskTracker组成。其中NameNode、Secondary NameNode、JobTracker运行在Master节点上，而在每个Slave节点上，部署一个DataNode和TaskTracker，以便这个Slave服务器运行的数据处理程序能尽可能直接处理本机的数据。对Master节点需要特别说明的是，在小集群中，Secondary NameNode可以属于某个从节点；在大型集群中，NameNode和JobTracker被分别部署在两台服务器上。
　　
数据存取 - HDFS架构：

Master / Slave(主从结构) - 节点可以理解为物理机器

主节点，只有一个: Namenode
从节点，有很多个: Datanodes

数据运算 - MapReduce架构：

主从结构

主节点，只有一个: JobTracker
从节点，有很多个: TaskTrackers
Hadoop集群示意图：

初识Hadoop两大核心：HDFS和MapReduce

四、HDFS与MapReduce的设计思路：
HDFS：

将文件进行切块处理，再通过文件信息服务器Namenode存放切块的文件信息存放地址，实际存放数据的服务器Datanode存放切块后的数据。

系统默认：每个片块大小为64M，以保证寻址速度；数据会写入3个Datanode中，以保证更高的容错性。

HDFS还设计了Secondary Namenode来更新Namenode，以避免日志文件过大。

HDFS Client帮助Namenode对写入读取数据进行预处理，进行文件的分块与发送读取操作。Namenode负责为数据任务寻址。

MapReduce：

通过JobClient生成任务运行文件，并在JobTracker进行调度指派TaskTracker完成任务。

JobTracker分为把任务文件进行分解并派送到TaskTracker的程序JobinProgress和执行调度器的TaskScheduler。

JobinProgress把作业分解成Map计算和Reduce计算并放置到TaskTracker服务器中。

数据在Hadoop中的流程处理示意图：

初识Hadoop两大核心：HDFS和MapReduce

五、HDFS与MapReduce组件介绍：
HDFS：

HDFS Client：进行文件的分块与文件的发送读取。

Namespace image：记录每个文件的存在位置信息。

Edit log：记录每个文件的位置移动信息。
　　
　　Namenode(Master)：管理着每个文件中各个块所在的数据节点的位置信息。
　　
　　Secondary Namenode：更新并备份Namenode。
　　
　　Datanode(Slave)：记录着服务器内所储存的数据块的列表。

Secondary Namenode：更新并备份Namenode。

MapReduce：

JobClient：用于把用户的作业任务生成Job的运行包，并存放到HDFS中。

JobinProgress：把Job运行包分解成MapTask和ReduceTask并存放于TaskTracker中。

JobTracker(Master)：进行调度管理TaskTracker执行任务。

TaskTracker(Slave)：执行分配下来的Map计算或Reduce计算任务。
---------------------
作者：丶阿喜z
来源：CSDN
原文：https://blog.csdn.net/wuya814070935/article/details/78664674
版权声明：本文为博主原创文章，转载请附上博文链接！

推荐阅读

stream
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
js
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
stream
秒建一个后台管理系统？用这5个开源免费的Java项目就够了

秒建一个后台管理系统？用这5个开源免费的Java项目就够了 ... [详细]

蜡笔小新 2024-11-12 03:21:33
include
Presto：高效即席查询引擎的深度解析与应用

本文深入解析了Presto这一高效的即席查询引擎，详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式，显著提升了查询性能，相比传统的MapReduce查询，不仅减少了数据传输的延迟，还提高了查询的准确性和效率。然而，Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景，展示了其在大数据分析领域的强大潜力。 ... [详细]

蜡笔小新 2024-11-07 19:17:47
stream
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
post
如何配置VisualSVN以确保提交时必须填写日志信息

在软件开发团队中，成员们有时会忘记在提交代码时添加必要的备注信息。为了规范这一流程，可以通过配置VisualSVN来强制要求团队成员在提交文件时填写日志信息。本文将详细介绍如何设置这一功能。 ... [详细]

蜡笔小新 2024-11-14 19:50:04
include
DB2 9 认证指南（733 测验）第二部分：数据处理

本文介绍 DB2 中的基本概念，重点解释事务单元（UOW）和事务的概念。事务单元是指作为单个原子操作执行的一个或多个 SQL 查询。 ... [详细]

蜡笔小新 2024-11-14 16:58:15
node.js
Ave V8 JavaScript 引擎：持续优化与创新

V8不仅是一款著名的八缸发动机，广泛应用于道奇Charger、宾利Continental GT和BossHoss摩托车中。自2008年以来，作为Chromium项目的一部分，V8 JavaScript引擎在性能优化和技术创新方面取得了显著进展。该引擎通过先进的编译技术和高效的垃圾回收机制，显著提升了JavaScript的执行效率，为现代Web应用提供了强大的支持。持续的优化和创新使得V8在处理复杂计算和大规模数据时表现更加出色，成为众多开发者和企业的首选。 ... [详细]

蜡笔小新 2024-11-09 15:56:40
future
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
future
在VSCode中添加自定义外部命令

通过将常用的外部命令集成到VSCode中，可以提高开发效率。本文介绍如何在VSCode中配置和使用自定义的外部命令，从而简化命令执行过程。 ... [详细]

蜡笔小新 2024-11-13 16:57:15
future
应用链时代，详解 Avalanche 与 Cosmos 的差异

应用链时代，详解 Avalanche 与 Cosmos 的差异 ... [详细]

蜡笔小新 2024-11-13 09:37:19
future
探索Web 2.0新概念：Widget

尽管你可能尚未注意到Widget，但正如几年前对RSS的陌生一样，这一概念正逐渐走入大众视野。据美国某权威杂志预测，2007年将是Widget年。本文将详细介绍Widget的定义、功能及其未来发展趋势。 ... [详细]

蜡笔小新 2024-11-12 18:36:54
function
javascript分页类支持页码格式

前端时间因为项目需要，要对一个产品下所有的附属图片进行分页显示，没考虑ajax一张张请求，所以干脆一次性全部把图片out，然 ... [详细]

蜡笔小新 2024-11-12 14:58:57
function
新手如何高效掌握新项目的要点与技巧？

对于刚毕业的新员工来说，如何迅速掌握一个全新的项目是一个常见的挑战。本文分享了作者在这一过程中积累的经验和技巧，旨在帮助读者更高效地应对类似问题。首先，理解业务背景和技术需求是关键，这有助于明确项目目标和方向。此外，积极与团队成员沟通、参与项目讨论，并利用在线资源进行学习，也是加快上手速度的有效途径。通过这些方法，可以显著提高工作效率，减少不必要的弯路。 ... [详细]

蜡笔小新 2024-11-11 13:54:28
function
深入解析NoSQL数据库：键值对、文档、列式存储与图数据库的应用与特点

本文深入探讨了NoSQL数据库的四大主要类型：键值对存储、文档存储、列式存储和图数据库。NoSQL（Not Only SQL）是指一系列非关系型数据库系统，它们不依赖于固定模式的数据存储方式，能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构；文档存储支持复杂的数据对象；列式存储优化了大数据量的读写性能；而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景，本文将详细分析它们的特点及应用实例。 ... [详细]

蜡笔小新 2024-11-09 14:47:28

乐天小散_608

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章