当前位置: 开发笔记 > 编程语言 > 正文

Hadoop之Yarn

作者：xuncijins | 来源：互联网 | 2023-10-15 12:16

目录1Hadoop1.x和Hadoop2.x架构区别2Yarn概述3Yarn基本架构4Yarn工作机制5作业提交全过程6资源调度器7任务的推测执行1Hadoop1.x和Hadoo

目录
    1 Hadoop1.x和Hadoop2.x架构区别
    2 Yarn概述
    3 Yarn基本架构
    4 Yarn工作机制
    5 作业提交全过程
    6 资源调度器
    7 任务的推测执行

1 Hadoop1.x和Hadoop2.x架构区别

在Hadoop1.x时代&＃xff0c;Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度&＃xff0c;耦合性较大。
在Hadoop2.x时代&＃xff0c;增加了Yarn。Yarn只负责资源的调度&＃xff0c;MapReduce只负责运算

2 Yarn概述

Yarn是一个资源调度平台&＃xff0c;负责为运算程序提供服务器运算资源&＃xff0c;相当于一个分布式的操作系统平台&＃xff0c;而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。

3 Yarn基本架构

YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。

Yarn架构

4 Yarn工作机制

(1)Yarn运行机制

yarn工作机制

(2)yarn工作机制详解

(0)Mr程序提交到客户端所在的节点。
(1)Yarnrunner向Resourcemanager申请一个Application。
(2)rm将该应用程序的资源路径返回给yarnrunner。
(3)该程序将运行所需资源提交到HDFS上。
(4)程序资源提交完毕后&＃xff0c;申请运行mrAppMaster。
(5)RM将用户的请求初始化成一个task。
(6)其中一个NodeManager领取到task任务。
(7)该NodeManager创建容器Container&＃xff0c;并产生MRAppmaster。
(8)Container从HDFS上拷贝资源到本地。
(9)MRAppmaster向RM 申请运行maptask资源。
(10)RM将运行maptask任务分配给另外两个NodeManager&＃xff0c;另两个NodeManager分别领取任务并创建容器。
(11)MR向两个接收到任务的NodeManager发送程序启动脚本&＃xff0c;这两个NodeManager分别启动maptask&＃xff0c;maptask对数据分区排序。
(12)MrAppMaster等待所有maptask运行完毕后&＃xff0c;向RM申请容器&＃xff0c;运行reduce task。
(13)reduce task向maptask获取相应分区的数据。
(14)程序运行完毕后&＃xff0c;MR会向RM申请注销自己。

5 作业提交全过程

作业提交全过程详解
(1)作业提交

第0步&＃xff1a;client调用job.waitForCompletion方法&＃xff0c;向整个集群提交MapReduce作业。
第1步&＃xff1a;client向RM申请一个作业id。
第2步&＃xff1a;RM给client返回该job资源的提交路径和作业id。
第3步&＃xff1a;client提交jar包、切片信息和配置文件到指定的资源提交路径。
第4步&＃xff1a;client提交完资源后&＃xff0c;向RM申请运行MrAppMaster。

(2)作业初始化

第5步&＃xff1a;当RM收到client的请求后&＃xff0c;将该job添加到容量调度器中。
第6步&＃xff1a;某一个空闲的NM领取到该job。
第7步&＃xff1a;该NM创建Container&＃xff0c;并产生MRAppmaster。
第8步&＃xff1a;下载client提交的资源到本地。

(3)任务分配

第9步&＃xff1a;MrAppMaster向RM申请运行多个maptask任务资源。
第10步&＃xff1a;RM将运行maptask任务分配给另外两个NodeManager&＃xff0c;另两个NodeManager分别领取任务并创建容器。

(4)任务运行

第11步&＃xff1a;MR向两个接收到任务的NodeManager发送程序启动脚本&＃xff0c;这两个NodeManager分别启动maptask&＃xff0c;maptask对数据分区排序。
第12步&＃xff1a;MrAppMaster等待所有maptask运行完毕后&＃xff0c;向RM申请容器&＃xff0c;运行reduce task。
第13步&＃xff1a;reduce task向maptask获取相应分区的数据。
第14步&＃xff1a;程序运行完毕后&＃xff0c;MR会向RM申请注销自己。

(5)进度和状态更新
YARN中的任务将其进度和状态(包括counter)返回给应用管理器, 客户端每秒(通过mapreduce.client.progressmonitor.pollinterval设置)向应用管理器请求进度更新, 展示给用户。

(6)作业完成
除了向应用管理器请求作业进度外, 客户端每5分钟都会通过调用waitForCompletion()来检查作业是否完成。时间间隔可以通过mapreduce.client.completion.pollinterval来设置。大数据学习扣群522189307&＃xff0c;获取系统课程&＃xff0c;作业完成之后, 应用管理器和container会清理工作状态。作业的信息会被作业历史服务器存储以备之后用户核查。

6 资源调度器

目前&＃xff0c;Hadoop作业调度器主要有三种&＃xff1a;FIFO、Capacity Scheduler和Fair Scheduler。Hadoop2.7.2默认的资源调度器是Capacity Scheduler。
具体设置详见&＃xff1a;yarn-default.xml文件

The class to use as the resource scheduler.yarn.resourcemanager.scheduler.classorg.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler

(1)先进先出调度器&＃xff08;FIFO&＃xff09;

FIFO

优点:调度算法简单&＃xff0c;JobTracker工作负担轻。
缺点:忽略了不同作业的需求差异。例如如果类似对海量数据进行统计分析的作业长期占据计算资源&＃xff0c;那么在其后提交的交互型作业有可能迟迟得不到处理&＃xff0c;从而影响到用户的体验。

(2)容量调度器&＃xff08;Capacity Scheduler&＃xff09;&＃61;&＃61;&＃61;>Yahoo开发

Capacity Scheduler

1.多队列支持&＃xff0c;每个队列采用FIFO
2.为了防止同一个用户的作业独占队列中的资源&＃xff0c;该调度器会对同一个用户提交多的作业所占资源量进行限定
3.首先&＃xff0c;计算每个队列中正在运行的任务数与其应该分得的计算资源之间的比值&＃xff0c;选择一个该比值最小的队列
4.其次&＃xff0c;根据作业的优先级和提交时间顺序&＃xff0c;同时考虑用户资源量限制和内存限制对队列内任务排序
5.三个队列同时按照任务的先后顺序依次执行&＃xff0c;比如&＃xff0c;job1&＃xff0c;job21和job31分别排在队列最前面&＃xff0c;是最先运行&＃xff0c;也是同时运行

该调度默认情况下不支持优先级&＃xff0c;但是可以在配置文件中开启此选项&＃xff0c;如果支持优先级&＃xff0c;调度算法就是带有优先级的FIFO。

不支持优先级抢占&＃xff0c;一旦一个作业开始执行&＃xff0c;在执行完之前它的资源不会被高优先级作业所抢占。

对队列中同一用户提交的作业能够获得的资源百分比进行了限制以使同属于一用户的作业不能出现独占资源的情况。

(3)公平调度器&＃xff08;Fair Scheduler&＃xff09;&＃61;&＃61;&＃61;>Facebook开发

Fair Scheduler

1.支持多队列多用户&＃xff0c;每个队列中的资源量可以配置&＃xff0c;同一个队列中的作业公平共享队列中所有资源
2.比如有三个队列A&＃xff0c;B&＃xff0c;C.每个队列中的job按照优先级分配资源&＃xff0c;优先级越高分配的资源越多&＃xff0c;但是每个job都分配到资源以确保公平。在资源有限的情况下&＃xff0c;每个job理想情况下&＃xff0c;获得的计算资源与实际获得的计算资源存在一种差距&＃xff0c;这个差距叫做缺额。同一个队列&＃xff0c;job的资源缺额越大&＃xff0c;越先获得的资源优先执行&＃xff0c;作业是按照缺额的高低来先后执行的&＃xff0c;而且可以看到上图有多个作业同时运行

7 任务的推测执行

推测执行(Speculative Execution)是指在集群环境下运行MapReduce&＃xff0c;可能是程序Bug&＃xff0c;负载不均或者其他的一些问题&＃xff0c;导致在一个JOB下的多个TASK速度不一致&＃xff0c;比如有的任务已经完成&＃xff0c;但是有些任务可能只跑了10%&＃xff0c;根据木桶原理&＃xff0c;这些任务将成为整个JOB的短板&＃xff0c;如果集群启动了推测执行&＃xff0c;这时为了最大限度的提高短板&＃xff0c;Hadoop会为该task启动备份任务&＃xff0c;让speculative task与原始task同时处理一份数据&＃xff0c;哪个先运行完&＃xff0c;则将谁的结果作为最终结果&＃xff0c;并且在运行完成后Kill掉另外一个任务。

(1)作业完成时间取决于最慢的任务完成时间
一个作业由若干个Map任务和Reduce任务构成。因硬件老化、软件Bug等&＃xff0c;某些任务可能运行非常慢。
典型案例&＃xff1a;系统中有99%的Map任务都完成了&＃xff0c;只有少数几个Map老是进度很慢&＃xff0c;完不成&＃xff0c;怎么办&＃xff1f;

(2)推测执行机制&＃xff1a;
发现拖后腿的任务&＃xff0c;比如某个任务运行速度远慢于任务平均速度。为拖后腿任务启动一个备份任务&＃xff0c;同时运行。谁先运行完&＃xff0c;则采用谁的结果。

(3)执行推测任务的前提条件

每个task只能有一个备份任务&＃xff1b;
当前job已完成的task必须不小于0.05&＃xff08;5%&＃xff09;
开启推测执行参数设置&＃xff0c;mapred-site.xml文件中默认是打开的

mapreduce.map.speculativetrueIf true, then multiple instances of some map tasks may be executed in parallel. mapreduce.reduce.speculativetrueIf true, then multiple instances of some reduce tasks may be executed in parallel.

(4)不能启用推测执行机制情况

任务间存在严重的负载倾斜&＃xff1b;
特殊任务&＃xff0c;比如任务向数据库中写数据

推荐阅读

timestamp
HBase运维工具全解析

本文深入探讨了HBase常用的运维工具，详细介绍了每种工具的功能、使用场景及操作示例。对于HBase的开发人员和运维工程师来说，这些工具是日常管理和故障排查的重要手段。 ... [详细]

蜡笔小新 2024-12-24 17:00:59
export
简化报表生成：EasyReport工具的全面解析

本文详细介绍了EasyReport，一个易于使用的开源Web报表工具。该工具支持Hadoop、HBase及多种关系型数据库，能够将SQL查询结果转换为HTML表格，并提供Excel导出、图表显示和表头冻结等功能。 ... [详细]

蜡笔小新 2024-12-22 11:11:28
java
HBase RegionServer 故障分析与解决

本文详细记录了一次 HBase RegionServer 异常宕机的情况，包括具体的错误信息和可能的原因分析。通过此案例，探讨了如何有效诊断并解决 HBase 中常见的 RegionServer 挂起问题。 ... [详细]

蜡笔小新 2024-12-01 16:21:27
export
HBase 数据复制与灾备同步策略

本文探讨了HBase在企业级应用中的数据复制与灾备同步解决方案，包括存量数据迁移及增量数据实时同步的方法。 ... [详细]

蜡笔小新 2024-11-21 19:20:03
export
Hadoop发行版本选择指南：技术解析与应用实践

本文详细介绍了Hadoop的不同发行版本及其特点，帮助读者根据实际需求选择最合适的Hadoop版本。内容涵盖Apache Hadoop、Cloudera CDH等主流版本的特性及应用场景。 ... [详细]

蜡笔小新 2024-12-22 20:38:12
sum
深入解析Hadoop的核心组件与工作原理

本文详细介绍了Hadoop的三大核心组件：分布式文件系统HDFS、资源管理器YARN和分布式计算框架MapReduce。通过分析这些组件的工作机制，帮助读者更好地理解Hadoop的架构及其在大数据处理中的应用。 ... [详细]

蜡笔小新 2024-12-19 17:17:51
python
深入解析BookKeeper的设计与应用场景

本文介绍了由Yahoo在2009年开发并于2011年开源的BookKeeper技术。BookKeeper是一种高效且可靠的日志流存储解决方案，广泛应用于需要高性能和强数据持久性的场景。 ... [详细]

蜡笔小新 2024-12-19 11:08:57
input
MapReduce原理是怎么剖析的

这期内容当中小编将会给大家带来有关MapReduce原理是怎么剖析的，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。1 ... [详细]

蜡笔小新 2024-12-16 18:23:06
sum
构建Filebeat-Kafka-Logstash-ElasticSearch-Kibana日志收集体系

本文介绍了如何使用Filebeat、Kafka、Logstash、ElasticSearch和Kibana构建一个高效、可扩展的日志收集与分析系统。各组件分别承担不同的职责，确保日志数据能够被有效收集、处理、存储及可视化。 ... [详细]

蜡笔小新 2024-12-08 14:48:22
eval
探索Hive UDF的应用

本文介绍了在解决Hive表中复杂数据结构平铺化问题后，如何通过创建视图来准确计算广告日志的曝光PV，特别是针对用户对应多个标签的情况。同时，详细探讨了UDF的使用方法及其在实际项目中的应用。 ... [详细]

蜡笔小新 2024-11-26 11:08:12
sum
Hadoop MapReduce 实战案例：手机流量使用统计分析

本文通过一个具体的Hadoop MapReduce案例，详细介绍了如何利用MapReduce框架来统计和分析手机用户的流量使用情况，包括上行和下行流量的计算以及总流量的汇总。 ... [详细]

蜡笔小新 2024-11-23 20:11:23
sum
流处理中的计数挑战与解决方案

本文探讨了在流处理中进行计数的各种技术和挑战，并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性，还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]

蜡笔小新 2024-11-20 13:50:01
java
构建用户画像环境：Hive与SparkSQL的高效整合

本文介绍如何通过整合SparkSQL与Hive来构建高效的用户画像环境，提高数据处理速度和查询效率。 ... [详细]

蜡笔小新 2024-11-19 09:44:24
java
Installing the MongoDB PHP Driver on XAMPP for macOS

This guide provides a comprehensive step-by-step approach to successfully installing the MongoDB PHP driver on XAMPP for macOS, ensuring a smooth and efficient setup process. ... [详细]

蜡笔小新 2024-12-27 19:58:25
java
如何顺利使用Eclipse进行Struts开发

作为一名新手，您可能会在初次尝试使用Eclipse进行Struts开发时遇到一些挑战。本文将为您提供详细的指导和解决方案，帮助您克服常见的配置和操作难题。 ... [详细]

蜡笔小新 2024-12-27 09:57:58

xuncijins

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章