全面解析大数据框架Hadoop主要模块

作者：老谢2502887117 | 来源：互联网 | 2023-08-13 15:28

hadoopCommon:：包括Hadoop常用的工具类，由原来的Hadoopcore部分更名而来。主要包括系统配置工具Configuration、远程

hadoop Common:&＃xff1a;包括Hadoop常用的工具类&＃xff0c;由原来的Hadoop core部分更名而来。主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件系统FileSystem等。它们为在通用硬件上搭建云计算环境提供基本的服务&＃xff0c;并为运行在该平台上的软件开发提供了所需的API。来源&＃xff1a;大数据资讯平台

全面解析大数据框架Hadoop主要模块

Hadoop Distributed File System (HDFS): 分布式文件系统&＃xff0c;提供对应用程序数据的高吞吐量&＃xff0c;高伸缩性&＃xff0c;高容错性的访问。是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统&＃xff0c;能检测和应对硬件故障&＃xff0c;用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型&＃xff0c;通过流式数据访问&＃xff0c;提供高吞吐量应用程序数据访问功能&＃xff0c;适合带有大型数据集的应用程序。

Hadoop YARN: 任务调度和集群资源管理。

很多初学者&＃xff0c;对大数据的概念都是模糊不清的&＃xff0c;大数据是什么&＃xff0c;能做什么&＃xff0c;学的时候&＃xff0c;该按照什么线路去学习&＃xff0c;学完往哪方面发展&＃xff0c;想深入了解&＃xff0c;想学习的同学欢迎加入大数据学习扣扣群&＃xff1a;740041381&＃xff0c;有大量干货&＃xff08;零基础以及进阶的经典实战&＃xff09;分享给大家&＃xff0c;并且有清华大学毕业的资深大数据讲师给大家免费授课&＃xff0c;给大家分享目前国内最完整的大数据高端实战实用学习流程体系。

Hadoop MapReduce: 基于YARN的大型数据集并行处理系统。是一种计算模型&＃xff0c;用以进行大数据量的计算。Hadoop的MapReduce实现&＃xff0c;和Common、HDFS一起&＃xff0c;构成了Hadoop发展初期的三个组件。MapReduce将应用划分为Map和Reduce两个步骤&＃xff0c;其中Map对数据集上的独立元素进行指定的操作&＃xff0c;生成键-值对形式中间结果。Reduce则对中间结果中相同“键”的所有“值”进行规约&＃xff0c;以得到最终结果。MapReduce这样的功能划分&＃xff0c;非常适合在大量计算机组成的分布式并行环境里进行数据处理。

其他模块&＃xff1a;

Ambari&＃xff1a;是一种基于Web的工具&＃xff0c;支持Apache Hadoop集群的供应、管理和监控。Ambari目前已支持大多数Hadoop组件&＃xff0c;包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等的集中管理。Ambari还提供了一个用于查看集群健康状况的仪表板&＃xff0c;例如散热图&＃xff0c;以及可视化查看MapReduce&＃xff0c;Pig和Hive应用程序以及以用户友好的方式诊断其性能特征的功能。也是5个顶级hadoop管理工具之一。

Avro&＃xff1a;数据序列化系统&＃xff0c;由Doug Cutting牵头开发&＃xff0c;是一个数据序列化系统。类似于其他序列化机制&＃xff0c;Avro可以将数据结构或者对象转换成便于存储和传输的格式&＃xff0c;其设计目标是用于支持数据密集型应用&＃xff0c;适合大规模数据的存储与交换。Avro提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持久性数据的文件集、远程调用RPC和简单动态语言集成等功能。

Cassandra&＃xff1a;可扩展的多主数据库&＃xff0c;没有单点故障。是一套开源分布式NoSQL数据库系统。它最初由Facebook开发&＃xff0c;用于储存收件箱等简单格式数据&＃xff0c;集GoogleBigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身Facebook于2008将 Cassandra 开源&＃xff0c;此后&＃xff0c;由于Cassandra良好的可扩展性&＃xff0c;被Digg、Twitter等知名Web 2.0网站所采纳&＃xff0c;成为了一种流行的分布式结构化数据存储方案。

Cassandra是一个混合型的非关系的数据库&＃xff0c;类似于Google的BigTable。其主要功能比Dynamo (分布式的Key-Value存储系统)更丰富&＃xff0c;但支持度却不如文档存储MongoDB(介于关系数据库和非关系数据库之间的开源产品&＃xff0c;是非关系数据库当中功能最丰富&＃xff0c;最像关系数据库的。支持的数据结构非常松散&＃xff0c;是类似json的bjson格式&＃xff0c;因此可以存储比较复杂的数据类型)。Cassandra最初由Facebook开发&＃xff0c;后转变成了开源项目。它是一个网络社交云计算方面理想的数据库。以Amazon专有的完全分布式的Dynamo为基础&＃xff0c;结合了Google BigTable基于列族(Column Family)的数据模型。P2P去中心化的存储。很多方面都可以称之为Dynamo 2.0。

Chukwa&＃xff1a;用于管理大型分布式系统的数据收集系统(2000&＃43;以上的节点&＃xff0c; 系统每天产生的监控数据量在T级别)。它构建在Hadoop的HDFS和MapReduce基础之上&＃xff0c;继承了Hadoop的可伸缩性和鲁棒性。Chukwa包含一个强大和灵活的工具集&＃xff0c;提供了数据的生成、收集、排序、去重、分析和展示等一系列功能&＃xff0c;是Hadoop使用者、集群运营人员和管理人员的必备工具。

全面解析大数据框架Hadoop主要模块

Hbase&＃xff1a;是一个分布式的、面向列的开源数据库&＃xff0c;该技术来源于 Fay Chang 所撰写的Google论文“Bigtable&＃xff1a;一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样&＃xff0c;HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库&＃xff0c;它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

HBase是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。和传统关系数据库不同&＃xff0c;HBase采用了BigTable的数据模型&＃xff1a;增强的稀疏排序映射表(Key/Value)&＃xff0c;其中&＃xff0c;键由行关键字、列关键字和时间戳构成。HBase提供了对大规模数据的随机、实时读写访问&＃xff0c;同时&＃xff0c;HBase中保存的数据可以使用MapReduce来处理&＃xff0c;它将数据存储和并行计算完美地结合在一起。

Hive&＃xff1a;是基于Hadoop的一个数据仓库工具&＃xff0c;可以将结构化的数据文件映射为一张数据库表&＃xff0c;并提供简单的sql查询功能&＃xff0c;可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低&＃xff0c;可以通过类SQL语句快速实现简单的MapReduce统计&＃xff0c;不必开发专门的MapReduce应用&＃xff0c;十分适合数据仓库的统计分析。

Hive是Hadoop中的一个重要子项目&＃xff0c;最早由Facebook设计&＃xff0c;是建立在Hadoop基础上的数据仓库架构&＃xff0c;它为数据仓库的管理提供了许多功能&＃xff0c;包括&＃xff1a;数据ETL(抽取、转换和加载)工具、数据存储管理和大型数据集的查询和分析能力。Hive提供的是一种结构化数据的机制&＃xff0c;定义了类似于传统关系数据库中的类SQL语言&＃xff1a;Hive QL&＃xff0c;通过该查询语言&＃xff0c;数据分析人员可以很方便地运行数据分析业务。

Mahout&＃xff1a;Apache旗下的一个开源项目&＃xff0c;提供一些可扩展的机器学习领域经典算法的实现&＃xff0c;旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现&＃xff0c;包括聚类、分类、推荐过滤、频繁子项挖掘。此外&＃xff0c;通过使用 Apache Hadoop 库&＃xff0c;Mahout 可以有效地扩展到云中。

Mahout起源于2008年&＃xff0c;最初是Apache Lucent的子项目&＃xff0c;它在极短的时间内取得了长足的发展&＃xff0c;现在是Apache的顶级项目。Mahout的主要目标是创建一些可扩展的机器学习领域经典算法的实现&＃xff0c;旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout现在已经包含了聚类、分类、推荐引擎(协同过滤)和频繁集挖掘等广泛使用的数据挖掘方法。除了算法&＃xff0c;Mahout还包含数据的输入/输出工具、与其他存储系统(如数据库、MongoDB 或Cassandra)集成等数据挖掘支持架构。

Pig&＃xff1a;运行在Hadoop上&＃xff0c;是对大型数据集进行分析和评估的平台。它简化了使用Hadoop进行数据分析的要求&＃xff0c;提供了一个高层次的、面向领域的抽象语言&＃xff1a;Pig Latin。通过Pig Latin&＃xff0c;数据工程师可以将复杂且相互关联的数据分析任务编码为Pig操作上的数据流脚本&＃xff0c;通过将该脚本转换为MapReduce任务链&＃xff0c;在Hadoop上执行。和Hive一样&＃xff0c;Pig降低了对大型数据集进行分析和评估的门槛。

Apache Pig 是一个高级过程语言&＃xff0c;适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询&＃xff0c;Pig 可以简化 Hadoop 的使用。

用MapReduce进行数据分析。当业务比较复杂的时候&＃xff0c;使用MapReduce将会是一个很复杂的事情&＃xff0c;比如你需要对数据进行很多预处理或转换&＃xff0c;以便能够适应MapReduce的处理模式。另一方面&＃xff0c;编写MapReduce程序&＃xff0c;发布及运行作业都将是一个比较耗时的事情。Pig的出现很好的弥补了这一不足。Pig能够让你专心于数据及业务本身&＃xff0c;而不是纠结于数据的格式转换以及MapReduce程序的编写。本质是上来说&＃xff0c;当你使用Pig进行处理时&＃xff0c;Pig本身会在后台生成一系列的MapReduce操作来执行任务&＃xff0c;但是这个过程对用户来说是透明的。

全面解析大数据框架Hadoop主要模块

Spark&＃xff1a; Hadoop数据快速通用的计算引擎。 Spark提供了一个简单的编程模型&＃xff0c;支持各种应用&＃xff0c;包括ETL&＃xff0c;机器学习&＃xff0c;流处理和图形计算。

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。

Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架&＃xff0c;Spark&＃xff0c;拥有Hadoop MapReduce所具有的优点&＃xff1b;但不同于MapReduce的是Job中间输出结果可以保存在内存中&＃xff0c;从而不再需要读写HDFS&＃xff0c;因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

Spark 是一种与 Hadoop 相似的开源集群计算环境&＃xff0c;但是两者之间还存在一些不同之处&＃xff0c;这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越&＃xff0c;换句话说&＃xff0c;Spark 启用了内存分布数据集&＃xff0c;除了能够提供交互式查询外&＃xff0c;它还可以优化迭代工作负载。

Spark 是在 Scala 语言中实现的&＃xff0c;它将 Scala 用作其应用程序框架。与 Hadoop 不同&＃xff0c;Spark 和 Scala 能够紧密集成&＃xff0c;其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

尽管创建 Spark 是为了支持分布式数据集上的迭代作业&＃xff0c;但是实际上它是对 Hadoop 的补充&＃xff0c;可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发&＃xff0c;可用来构建大型的、低延迟的数据分析应用程序。

Tez&＃xff1a;用于构建高性能批处理和交互式数据处理应用程序的可扩展框架&＃xff0c;由Apache Hadoop中的YARN协调。 Tez通过大幅度提高其速度来改进MapReduce范式&＃xff0c;同时保持MapReduce扩展到PB级数据的能力。支持DAG(Database Availability Group 数据库可用性组)作业的计算框架&＃xff0c;它直接源于MapReduce框架&＃xff0c;核心思想是将Map和Reduce两个操作进一步拆分&＃xff0c;即Map被拆分成Input、Processor、Sort、Merge和Output&＃xff0c; Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等&＃xff0c;这样&＃xff0c;这些分解后的元操作可以任意灵活组合&＃xff0c;产生新的操作&＃xff0c;这些操作经过一些控制程序组装后&＃xff0c;可形成一个大的DAG作业。

很多初学者&＃xff0c;对大数据的概念都是模糊不清的&＃xff0c;大数据是什么&＃xff0c;能做什么&＃xff0c;学的时候&＃xff0c;该按照什么线路去学习&＃xff0c;学完往哪方面发展&＃xff0c;想深入了解&＃xff0c;想学习的同学欢迎加入大数据学习扣扣群&＃xff1a;740041381&＃xff0c;有大量干货&＃xff08;零基础以及进阶的经典实战&＃xff09;分享给大家&＃xff0c;并且有清华大学毕业的资深大数据讲师给大家免费授课&＃xff0c;给大家分享目前国内最完整的大数据高端实战实用学习流程体系。

ZooKeeper&＃xff1a; 一个分布式的&＃xff0c;开放源码的分布式应用程序协调服务&＃xff0c;是Google的Chubby一个开源的实现&＃xff0c;是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件&＃xff0c;提供的功能包括&＃xff1a;配置维护、域名服务、分布式同步、组服务等。

ZooKeeper的目标就是封装好复杂易出错的关键服务&＃xff0c;将简单易用的接口和性能高效、功能稳定的系统提供给用户。

在分布式系统中如何就某个值(决议)达成一致&＃xff0c;是一个十分重要的基础问题。ZooKeeper作为一个分布式的服务框架&＃xff0c;解决了分布式计算中的一致性问题。在此基础上&＃xff0c;ZooKeeper可用于处理分布式应用中经常遇到的一些数据管理问题&＃xff0c;如统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。ZooKeeper常作为其他Hadoop相关项目的主要组件&＃xff0c;发挥着越来越重要的作用。

推荐阅读

sum
流处理中的计数挑战与解决方案

本文探讨了在流处理中进行计数的各种技术和挑战，并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性，还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]

蜡笔小新 2024-11-20 13:50:01
sum
探索阿里巴巴的开源世界

从理想主义者的内心深处萌发的技术信仰，推动了云原生技术在全球范围内的快速发展。本文将带你深入了解阿里巴巴在开源领域的贡献与成就。 ... [详细]

蜡笔小新 2024-11-21 09:06:54
sum
H5技术实现经典游戏《贪吃蛇》

本文将分享一个使用HTML5技术实现的经典小游戏——《贪吃蛇》。通过H5技术，我们将探讨如何构建这款游戏的两种主要玩法：积分闯关和无尽模式。 ... [详细]

蜡笔小新 2024-11-21 20:16:59
sum
CRZ.im：一款极简的网址缩短服务及其安装指南

本文介绍了一款名为CRZ.im的极简网址缩短服务，该服务采用PHP和SQLite开发，体积小巧，约10KB。本文还提供了详细的安装步骤，包括环境配置、域名解析及Nginx伪静态设置。 ... [详细]

蜡笔小新 2024-11-21 13:50:47
format
OBS Studio自动化实践：利用脚本批量生成录制场景

本文探讨了如何利用OBS Studio进行高效录屏，并通过脚本实现场景的自动生成。适合对自动化办公感兴趣的读者。 ... [详细]

蜡笔小新 2024-11-21 10:44:53
version
spring boot使用jetty无法启动

spring boot使用jetty无法启动 ... [详细]

蜡笔小新 2024-11-21 10:15:52
include
解决SQL Server中几何类型列的INTERSECT操作问题

本文探讨了在SQL Server中处理几何类型列时遇到的INTERSECT操作限制，并提供了解决方案，包括通过转换数据类型和使用额外表结构的方法。 ... [详细]

蜡笔小新 2024-11-20 20:09:58
export
Vue3中如何提高开发效率

小编给大家分享一下Vue3中如何提高开发效率，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获， ... [详细]

蜡笔小新 2024-11-20 15:33:07
format
linux网络子系统分析（二）—— 协议栈分层框架的建立

目录一、综述二、INET的初始化2.1INET接口注册2.2抽象实体的建立2.3代码细节分析2.3.1socket参数三、其他协议3.1PF_PACKET3.2P ... [详细]

蜡笔小新 2024-11-20 15:21:14
export
Vue CLI 中的 Proxy 配置详解

本文详细介绍了如何在 Vue CLI 3.0 和 2.0 中配置 proxy 来解决开发环境下的跨域问题，包括具体的配置项和使用场景。 ... [详细]

蜡笔小新 2024-11-20 14:48:41
export
深入理解云计算与大数据技术

本文详细探讨了云计算与大数据技术的关键知识点，包括大数据处理平台、社会网络大数据、城市大数据、工业大数据、教育大数据、数据开放与共享的应用，以及搜索引擎与Web挖掘、推荐技术的研究及应用。文章还涵盖了云计算的基础概念、特点和服务类型分类。 ... [详细]

蜡笔小新 2024-11-20 13:24:51
sum
Windows环境下Apache频繁崩溃的解决方案

本文探讨了在Windows系统中运行Apache服务器时频繁出现崩溃的问题，并提供了多种可能的解决方案和建议。错误日志显示多个子进程因达到最大请求限制而退出。 ... [详细]

蜡笔小新 2024-11-20 13:07:27
sum
Redis：缓存与内存数据库详解

本文介绍了数据库的基本分类，重点探讨了关系型与非关系型数据库的区别，并详细解析了Redis作为非关系型数据库的特点、工作模式、优点及持久化机制。 ... [详细]

蜡笔小新 2024-11-18 14:16:11
input
MIT 6.824 实验笔记：MapReduce 开发指南

本文详细记录了 MIT 6.824 课程中 MapReduce 实验的开发过程，包括环境搭建、实验步骤和具体实现方法。 ... [详细]

蜡笔小新 2024-11-18 12:05:23
perl
Maven + Spring + MyBatis + MySQL 环境搭建与实例解析

本文详细介绍如何使用MySQL数据库进行环境搭建，包括创建数据库表并插入示例数据。随后，逐步指导如何配置Maven项目，整合Spring框架与MyBatis，实现高效的数据访问。 ... [详细]

蜡笔小新 2024-11-21 18:39:23

老谢2502887117

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章