我眼中的大数据（四）——Yarn和Hive

作者：手浪用户2602928711 | 来源：互联网 | 2023-08-23 18:53

CSDN话题挑战赛第2期参赛话题：大数据技术分享一、YarnHadoop主要是由三部分组成，除了前面我讲过的分布式文件系统HDFS、分布式计算框架M

CSDN话题挑战赛第2期
参赛话题&＃xff1a;大数据技术分享

一、Yarn

Hadoop主要是由三部分组成&＃xff0c;除了前面我讲过的分布式文件系统HDFS、分布式计算框架MapReduce&＃xff0c;还有一个是分布式集群资源调度框架Yarn。但是Yarn并不是随Hadoop的推出一开始就有的&＃xff0c;Yarn作为分布式集群的资源调度框架&＃xff0c;它的出现伴随着Hadoop的发展&＃xff0c;使Hadoop从一个单一的大数据计算引擎&＃xff0c;成为一个集存储、计算、资源管理为一体的完整大数据平台&＃xff0c;进而发展出自己的生态体系&＃xff0c;成为大数据的代名词。

先回忆一下我们学习的MapReduce的架构&＃xff0c;在MapReduce应用程序的启动过程中&＃xff0c;最重要的就是要把MapReduce程序分发到大数据集群的服务器上。这种架构方案的主要缺点是&＃xff0c;服务器集群资源调度管理和MapReduce执行过程耦合在一起&＃xff0c;如果想在当前集群中运行其他计算任务&＃xff0c;比如Spark或者Storm&＃xff0c;就无法统一使用集群中的资源了。

在Hadoop早期的时候&＃xff0c;大数据技术就只有Hadoop一家&＃xff0c;这个缺点并不明显。但随着大数据技术的发展&＃xff0c;各种新的计算框架不断出现&＃xff0c;我们不可能为每一种计算框架部署一个服务器集群&＃xff0c;而且就算能部署新集群&＃xff0c;数据还是在原来集群的HDFS上。所以我们需要把MapReduce的资源管理和计算框架分开&＃xff0c;这也是Hadoop 2最主要的变化&＃xff0c;就是将Yarn从MapReduce中分离出来&＃xff0c;成为一个独立的资源调度框架。

从图上看&＃xff0c;Yarn包括两个部分&＃xff1a;一个是资源管理器&＃xff08;Resource Manager&＃xff09;&＃xff0c;一个是节点管理器&＃xff08;Node Manager&＃xff09;。这也是Yarn的两种主要进程&＃xff1a;ResourceManager进程负责整个集群的资源调度管理&＃xff0c;通常部署在独立的服务器上&＃xff1b;NodeManager进程负责具体服务器上的资源和任务管理&＃xff0c;在集群的每一台计算服务器上都会启动&＃xff0c;基本上跟HDFS的DataNode进程一起出现。

具体说来&＃xff0c;资源管理器又包括两个主要组件&＃xff1a;调度器和应用程序管理器。

调度器其实就是一个资源分配算法&＃xff0c;根据应用程序&＃xff08;Client&＃xff09;提交的资源申请和当前服务器集群的资源状况进行资源分配。Yarn内置了几种资源调度算法&＃xff0c;包括Fair Scheduler、Capacity Scheduler等&＃xff0c;你也可以开发自己的资源调度算法供Yarn调用。

Yarn进行资源分配的单位是容器&＃xff08;Container&＃xff09;&＃xff0c;每个容器包含了一定量的内存、CPU等计算资源&＃xff0c;默认配置下&＃xff0c;每个容器包含一个CPU核心。容器由NodeManager进程启动和管理&＃xff0c;NodeManger进程会监控本节点上容器的运行状况并向ResourceManger进程汇报。

应用程序管理器负责应用程序的提交、监控应用程序运行状态等。应用程序启动后需要在集群中运行一个ApplicationMaster&＃xff0c;ApplicationMaster也需要运行在容器里面。每个应用程序启动后都会先启动自己的ApplicationMaster&＃xff0c;由ApplicationMaster根据应用程序的资源需求进一步向ResourceManager进程申请容器资源&＃xff0c;得到容器以后就会分发自己的应用程序代码到容器上启动&＃xff0c;进而开始分布式计算。

我们以一个MapReduce程序为例&＃xff0c;来看一下Yarn的整个工作流程。

1.我们向Yarn提交应用程序&＃xff0c;包括MapReduce ApplicationMaster、我们的MapReduce程序&＃xff0c;以及MapReduce Application启动命令。

2.ResourceManager进程和NodeManager进程通信&＃xff0c;根据集群资源&＃xff0c;为用户程序分配第一个容器&＃xff0c;并将MapReduce ApplicationMaster分发到这个容器上面&＃xff0c;并在容器里面启动MapReduce ApplicationMaster。

3.MapReduce ApplicationMaster启动后立即向ResourceManager进程注册&＃xff0c;并为自己的应用程序申请容器资源。

4.MapReduce ApplicationMaster申请到需要的容器后&＃xff0c;立即和相应的NodeManager进程通信&＃xff0c;将用户MapReduce程序分发到NodeManager进程所在服务器&＃xff0c;并在容器中运行&＃xff0c;运行的就是Map或者Reduce任务。

5.Map或者Reduce任务在运行期和MapReduce ApplicationMaster通信&＃xff0c;汇报自己的运行状态&＃xff0c;如果运行结束&＃xff0c;MapReduce ApplicationMaster向ResourceManager进程注销并释放所有的容器资源。

MapReduce如果想在Yarn上运行&＃xff0c;就需要开发遵循Yarn规范的MapReduce ApplicationMaster&＃xff0c;相应地&＃xff0c;其他大数据计算框架也可以开发遵循Yarn规范的ApplicationMaster&＃xff0c;这样在一个Yarn集群中就可以同时并发执行各种不同的大数据计算框架&＃xff0c;实现资源的统一调度管理。

二、Hive

MapReduce的出现大大简化了大数据编程的难度&＃xff0c;普通工程师也能使用MapReduce开发大数据程序。但是对于经常需要进行大数据计算的人&＃xff0c;比如数据分析师来说&＃xff0c;他们通常使用SQL进行大数据分析和统计&＃xff0c;MapReduce编程还是有一定的门槛。而且如果每次统计和分析都开发相应的MapReduce程序&＃xff0c;成本也确实太高了。那么有没有更简单的办法&＃xff0c;可以直接将SQL运行在大数据平台上呢&＃xff1f;

对于常见的一条SQL分析语句&＃xff0c;MapReduce如何编程实现&＃xff1f;

SELECT pageid, age, count(1) FROM pv_users GROUP BY pageid, age;

这是一条非常常见的SQL统计分析语句&＃xff0c;统计不同年龄的用户访问不同网页的兴趣偏好&＃xff0c;对于产品运营和设计很有价值。具体数据输入和执行结果请看下面的图示。

左边是要分析的数据表&＃xff0c;右边是分析结果。实际上把左边表相同的行进行累计求和&＃xff0c;就得到右边的表了&＃xff0c;看起来跟WordCount的计算很相似。确实也是这样&＃xff0c;我们看下这条SQL语句的MapReduce的计算过程&＃xff0c;按照MapReduce编程模型&＃xff0c;map和reduce函数的输入输出以及函数处理过程分别是什么。

首先&＃xff0c;看下map函数的输入Key和Value&＃xff0c;我们主要看Value。Value就是左边表中每一行的数据&＃xff0c;比如<1, 25>这样。map函数的输出就是以输入的Value作为Key&＃xff0c;Value统一设为1&＃xff0c;比如<<1, 25>, 1>这样。

map函数的输出经过shuffle以后&＃xff0c;相同的Key及其对应的Value被放在一起组成一个&＃xff0c;作为输入交给reduce函数处理。比如<<2, 25>, 1>被map函数输出两次&＃xff0c;那么到了reduce这里&＃xff0c;就变成输入<<2, 25>, <1, 1>>&＃xff0c;这里的Key是<2, 25>&＃xff0c;Value集合是<1, 1>。

在reduce函数内部&＃xff0c;Value集合里所有的数字被相加&＃xff0c;然后输出。所以reduce的输出就是<<2, 25>, 2>。

这样一条很有实用价值的SQL就被很简单的MapReduce计算过程处理好了。

在数据仓库中&＃xff0c;SQL是最常用的分析工具&＃xff0c;既然一条SQL可以通过MapReduce程序实现&＃xff0c;那么有没有工具能够自动将SQL生成MapReduce代码呢&＃xff1f;这样数据分析师只要输入SQL&＃xff0c;就可以自动生成MapReduce可执行的代码&＃xff0c;然后提交Hadoop执行&＃xff0c;也就完美解决了我们最开始提出的问题。问题的答案&＃xff0c;也就是这个神奇的工具就是Hadoop大数据仓库Hive。

我们通过Hive的Client&＃xff08;Hive的命令行工具&＃xff0c;JDBC等&＃xff09;向Hive提交SQL命令。如果是创建数据表的DDL&＃xff08;数据定义语言&＃xff09;&＃xff0c;Hive就会通过执行引擎Driver将数据表的信息记录在Metastore元数据组件中&＃xff0c;这个组件通常用一个关系数据库实现&＃xff0c;记录表名、字段名、字段类型、关联HDFS文件路径等这些数据库的Meta信息&＃xff08;元信息&＃xff09;。

如果我们提交的是查询分析数据的DQL&＃xff08;数据查询语句&＃xff09;&＃xff0c;Driver就会将该语句提交给自己的编译器Compiler进行语法分析、语法解析、语法优化等一系列操作&＃xff0c;最后生成一个MapReduce执行计划。然后根据执行计划生成一个MapReduce的作业&＃xff0c;提交给Hadoop MapReduce计算框架处理。

后面随着Hive的普及&＃xff0c;我们对于在Hadoop上执行SQL的需求越加强烈&＃xff0c;对大数据SQL的应用场景也多样化起来&＃xff0c;于是又开发了各种大数据SQL引擎。后来Spark出道以后&＃xff0c;也迅速推出了自己的SQL引擎Shark&＃xff0c;也就是后来的Spark SQL&＃xff0c;将SQL语句解析成Spark的执行计划&＃xff0c;在Spark上执行。由于Spark比MapReduce快很多&＃xff0c;Spark SQL也相应比Hive快很多&＃xff0c;并且随着Spark的普及&＃xff0c;Spark SQL也逐渐被人们接受。后来Hive推出了Hive on Spark&＃xff0c;将Hive的执行计划转换成Spark的计算模型&＃xff0c;当然这是后话了。

推荐阅读

int
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
int
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
int
HDFS基础知识与数据读写机制详解

本文详细介绍了HDFS的基础知识及其数据读写机制。首先，文章阐述了HDFS的架构，包括其核心组件及其角色和功能。特别地，对NameNode进行了深入解析，指出其主要负责在内存中存储元数据、目录结构以及文件块的映射关系，并通过持久化方案确保数据的可靠性和高可用性。此外，还探讨了DataNode的角色及其在数据存储和读取过程中的关键作用。 ... [详细]

蜡笔小新 2024-10-30 11:58:25
int
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
get
Apache Hadoop HDFS QJournalProtocol 中 getJournalCTime 方法的应用与代码实例分析

Apache Hadoop HDFS QJournalProtocol 中 getJournalCTime 方法的应用与代码实例分析 ... [详细]

蜡笔小新 2024-11-08 11:32:58
int
深入理解Spark框架：RDD核心概念与操作详解

RDD是Spark框架的核心计算模型，全称为弹性分布式数据集（Resilient Distributed Dataset）。本文详细解析了RDD的基本概念、特性及其在Spark中的关键操作，包括创建、转换和行动操作等，帮助读者深入理解Spark的工作原理和优化策略。通过具体示例和代码片段，进一步阐述了如何高效利用RDD进行大数据处理。 ... [详细]

蜡笔小新 2024-10-29 20:10:01
command
Linux学习精华：程序管理、终端种类与命令帮助获取方法综述

Linux学习精华：程序管理、终端种类与命令帮助获取方法综述 ... [详细]

蜡笔小新 2024-10-28 13:45:59
int
如何提升Python处理约1GB数据集时的运行效率？

如何提升Python处理约1GB数据集时的运行效率？本文探讨了在后端开发中使用Python处理大规模数据集的优化方法。通过分析常见的性能瓶颈，介绍了多种提高数据处理速度的技术，包括使用高效的数据结构、并行计算、内存管理和代码优化策略。此外，文章还提供了在Ubuntu环境下配置和测试这些优化方案的具体步骤，适用于从事推荐系统等领域的开发者。 ... [详细]

蜡笔小新 2024-10-27 02:13:48
config
pyspark RDD数据的读取与保存

数据读取hadoopFileParameters:path–pathtoHadoopfileinputFormatClass–fullyqualifiedclassnameo ... [详细]

蜡笔小新 2024-10-17 18:31:13
format
Hadoop + Spark安装(三) —— 调hadoop

***************************测试hadoop及问题跟进***************************执行以下语句报错datahadoop-2.9. ... [详细]

蜡笔小新 2024-10-17 11:56:27
format
hive和mysql的区别是什么[mysql教程]

hive和mysql的区别有：1、查询语言不同，hive是hql语言，MySQL是sql语句；2、数据存储位置不同，hive把数据存储在hdfs上，MySQL把数据存储在自己的系统 ... [详细]

蜡笔小新 2024-10-17 05:28:28
format
数据湖风暴来袭，EMR重磅发布Apache Hudi

Hudi是一种数据湖的存储格式，在Hadoop文件系统之上提供了更新数据和删除数据的能力以及流式消费变化数据的能力。应用场景近实时数据摄取Hudi支持插入、更新和删除数据的能力。您 ... [详细]

蜡笔小新 2024-10-14 13:15:48
scala
工作原理_一文理解 Spark 基础概念及工作原理

篇首语：本文由编程笔记#小编为大家整理，主要介绍了一文理解Spark基础概念及工作原理相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2024-10-14 04:29:30
scala
Hadoop的分布式架构改进与应用

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2024-10-11 14:10:35
int
阿里云大数据计算服务MaxCompute (原名 ODPS)

MaxCompute是阿里EB级计算平台，经过十年磨砺，它成为阿里巴巴集团数据中台的计算核心和阿里云大数据的基础服务。去年MaxCompute做了哪些工作，这些工作背后的原因是什 ... [详细]

蜡笔小新 2024-09-28 17:30:24

手浪用户2602928711

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章