Hadoop系列之Hadoop分布式系统介绍

作者：孔红MJ | 来源：互联网 | 2023-09-12 10:42

随着智能化、万物互联时代的快速发展，数据量开始暴增，一方面我们需要开始思考如何高效可靠地存储海量的数据，另一方面我们还需要对这些数据进行分析处理，以获得更多有价值的

随着智能化、万物互联时代的快速发展，数据量开始暴增，一方面我们需要开始思考如何高效可靠地存储海量的数据，另一方面我们还需要对这些数据进行分析处理，以获得更多有价值的信息。这时期我们就需要用到Hadoop了。

Hadoop是Apache软件基金会下一个开源分布式计算平台，以hdfs（Hadoop Distributed File System）、MapReduce（Hadoop2.0加入了YARN，Yarn是资源调度框架，能够细粒度的管理和调度任务，还能够支持其他的计算框架，比如spark）为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。hdfs的高容错性、高伸缩性、高效性等优点让用户可以将Hadoop部署在低廉的硬件上，形成分布式系统。

Hadoop生态

除了基础Hadoop，发展到今天Hadoop已经拥有非常完善和庞大的开源生态圈：HDFS提供文件存储，YARN提供资源管理，在此基础上，进行各种处理，包括mapreduce、Tez、Sprak、Storm等等，以满足不同要求的数据使用场景。

HDFS架构

HDFS架构图

HDFS采用了主从结构模型，一个HDFS集群是由一个NameNode和若干个DataNode组成，其中NameNode作为主服务器管理文件系统的命名空间和客户端对文件的访问操作，而DataNode则负责管理存储的数据。HDFS底层数据被切割成了多个Block，而这些Block又被复制后存储在不同的DataNode上，以达到容错容灾的目的。

MapReduce

MapReduce是谷歌公司的核心计算模型，它将运行于在规模集群上的复杂并行计算过程高度地抽象为两个函数过程：Map和Reduce（"Map（映射）"和"Reduce（归约）"）。map函数以 key/value 对作为输入，产生另外一系列 key/value 对作为中间输出写入本地磁盘。MapReduce 框架会自动将这些中间数据按照 key 值进行聚集，且 key 值相同的数据被统一交给 reduce函数处理。reduce函数则以 key 及对应的 value 列表作为输入，经合并 key 相同的 value 值后，产生另外一系列 key/value 对作为最终输出写入HDFS。

Hive与Hbase的区别

在Hadoop基本生态中，有两个组件的说说他们的区别，它们就是hive和hbase。Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。HBase是Hadoop的数据库，一个分布式、可扩展、大数据的存储。

Hive本身不存储和计算数据，它完全依赖于HDFS和MapReduce，Hive中的表纯逻辑。hive需要用到hdfs存储文件，需要用到MapReduce计算框架。hive可认为是map-reduce的一个包装。hive的意义就是把好写的hive的sql转换为复杂难写的map-reduce程序。hbase是物理表，不是逻辑表，提供一个超大的内存hash表，搜索引擎通过它来存储索引，方便查询操作。hbase可以认为是hdfs的一个包装。他的本质是数据存储，是个NoSql（not only sql）数据库；hbase部署于hdfs之上，并且克服了hdfs在随机读写方面的缺点。

推荐阅读

服务器
NoSQL 数据查询与检索技术解析

NoSQL数据库，即非关系型数据库，有时也被称作Not Only SQL，是一种区别于传统关系型数据库的管理系统。这类数据库设计用于处理大规模、高并发的数据存储与查询需求，特别适用于需要快速读写大量非结构化或半结构化数据的应用场景。NoSQL数据库通过牺牲部分一致性来换取更高的可扩展性和性能，支持分布式部署，能够有效应对互联网时代的海量数据挑战。 ... [详细]

蜡笔小新 2024-10-28 18:13:15
服务器
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
数组
深入解析NoSQL数据库：键值对、文档、列式存储与图数据库的应用与特点

本文深入探讨了NoSQL数据库的四大主要类型：键值对存储、文档存储、列式存储和图数据库。NoSQL（Not Only SQL）是指一系列非关系型数据库系统，它们不依赖于固定模式的数据存储方式，能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构；文档存储支持复杂的数据对象；列式存储优化了大数据量的读写性能；而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景，本文将详细分析它们的特点及应用实例。 ... [详细]

蜡笔小新 2024-11-09 14:47:28
java
您的数据库配置是否安全？DBSAT工具助您一臂之力！

本文探讨了Oracle提供的免费工具DBSAT，该工具能够有效协助用户检测和优化数据库配置的安全性。通过全面的分析和报告，DBSAT帮助用户识别潜在的安全漏洞，并提供针对性的改进建议，确保数据库系统的稳定性和安全性。 ... [详细]

蜡笔小新 2024-11-11 14:44:47
request
Web开发框架概览：Java与JavaScript技术及框架综述

Web开发涉及服务器端和客户端的协同工作。在服务器端，Java是一种优秀的编程语言，适用于构建各种功能模块，如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示，同时借助JavaScript增强交互性和动态效果。此外，现代Web开发还广泛使用各种框架和库，如Spring Boot、React和Vue.js，以提高开发效率和应用性能。 ... [详细]

蜡笔小新 2024-11-09 11:59:38
char
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
java
构建高可用性Spark分布式集群：大数据环境下的最佳实践

在构建高可用性的Spark分布式集群过程中，确保所有节点之间的无密码登录是至关重要的一步。通过在每个节点上生成SSH密钥对（使用 `ssh-keygen -t rsa` 命令并保持默认设置），可以实现这一目标。此外，还需将生成的公钥分发到所有节点的 `~/.ssh/authorized_keys` 文件中，以确保节点间的无缝通信。为了进一步提升集群的稳定性和性能，建议采用负载均衡和故障恢复机制，并定期进行系统监控和维护。 ... [详细]

蜡笔小新 2024-11-02 14:18:50
text
HTML5大文件传输技术深度解析与实践分享

本文深入探讨了HTML5在Web前端开发中实现大文件上传的技术细节与实践方法。通过实例分析，详细讲解了如何利用HTML5的相关特性高效、稳定地处理大文件传输问题，并提供了可供参考的代码示例和解决方案。此外，文章还讨论了常见的技术挑战及优化策略，旨在帮助开发者更好地理解和应用HTML5大文件上传技术。 ... [详细]

蜡笔小新 2024-10-28 18:59:50
text
上海市地理位置解析：纬度详细分析

9月10日，ShanghaiApacheSparkMeetup聚会在上海通茂大酒店成功举办。本次活动邀请到运营商和高校讲师来分享经验，主题覆盖了从Spark研发到应用的各种不同视角 ... [详细]

蜡笔小新 2024-10-22 20:30:31
list
如何在SPARK SQL中通过Expand操作实现Grouping Sets（逻辑计划层面详解）

背景本文基于spark3.1.2之前在做bug调试的时候遇到了expand的问题，在此记录一下分析运行该sql： createtabletest_ ... [详细]

蜡笔小新 2024-10-22 16:42:53
version
如何在Linux服务器上配置MySQL和Tomcat的开机自动启动

在Linux服务器上部署Web项目时，通常需要确保MySQL和Tomcat服务能够随系统启动而自动运行。本文将详细介绍如何在Linux环境中配置MySQL和Tomcat的开机自启动，以确保服务的稳定性和可靠性。通过合理的配置，可以有效避免因服务未启动而导致的项目故障。 ... [详细]

蜡笔小新 2024-11-11 19:41:03
request
在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解

在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解 ... [详细]

蜡笔小新 2024-11-11 17:28:29
request
PHP 各版本对比：标准版与最新顶级版的详细分析

PHP 各版本对比：标准版与最新顶级版的详细分析 ... [详细]

蜡笔小新 2024-11-11 13:23:25
java
使用JDBC实现ActiveMQ消息持久化机制深入解析

本文深入解析了通过JDBC实现ActiveMQ消息持久化的机制。JDBC能够将消息可靠地存储在多种关系型数据库中，如MySQL、SQL Server、Oracle和DB2等。采用JDBC持久化方式时，数据库会自动生成三个关键表：`activemq_msgs`、`activemq_lock`和`activemq_ACKS`，分别用于存储消息数据、锁定信息和确认状态。这种机制不仅提高了消息的可靠性，还增强了系统的可扩展性和容错能力。 ... [详细]

蜡笔小新 2024-11-10 14:41:02
js
系统转换的三种方法及其具体应用分析

系统转换是信息技术领域中常见的任务，本文详细探讨了三种主要的系统转换方法及其具体应用场景。这些方法包括：代码迁移、数据迁移和平台迁移。文章通过实例分析了每种方法的优势和局限性，并提供了实际操作中的注意事项和技术要点。例如，代码迁移适用于从VB6获取网页源码，数据迁移在Ubuntu中用于隐藏侧边栏，而平台迁移则涉及Tomcat 6.0的使用和谷歌爬虫的测试。此外，文章还讨论了蓝翰互动PHP面试和5118 SEO工具在系统转换中的应用，为读者提供了全面的技术参考。 ... [详细]

蜡笔小新 2024-11-10 13:53:48

孔红MJ

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章