sparkjavajob_一篇文章搞清spark任务如何执行

作者：耿睿---疯子 | 来源：互联网 | 2023-07-22 13:29

本文将针对spark中的Driver和Executor讲起，简述了spark的运行流程，部署模式以及内部任务调度机制，希望针对spark任

本文将针对spark中的Driver和Executor讲起&＃xff0c;简述了spark的运行流程&＃xff0c;部署模式以及内部任务调度机制&＃xff0c;希望针对spark任务执行过程进行尽可能好理解的解析

1.两个重要的主角

在spark中&＃xff0c;有两个重要的主角是绕不开的&＃xff0c;driver和executor&＃xff0c;他们的结构呈一主多从模式&＃xff0c;driver就是那个单身狗&＃xff0c;控制欲很强&＃xff0c;权利也很大&＃xff0c;每天独自一人没别的事&＃xff0c;就想法设法的指挥着手下一堆executor到处干活。他们分工明确&＃xff0c;组织结构简单&＃xff0c;共同支撑起了spark强大的计算引擎。

Driver

Spark 驱动器节点&＃xff0c;用于执行 Spark 任务中的 main 方法&＃xff0c;负责实际代码的执行工作。Driver 在 Spark 作业执行时主要负责&＃xff1a;

1. 将代码逻辑转化为任务&＃xff1b;

2. 在 Executor 之间调度任务(job)&＃xff1b;

3. 跟踪 Executor 的执行情况(task)。

Executor

Spark 执行器节点&＃xff0c;负责在 Spark 作业中运行具体任务&＃xff0c;任务之间相互独立。Spark 应用启动时&＃xff0c;Executor 节点被同时启动&＃xff0c;并且始终伴随着整个 Spark 应用的生命周期而存在。如果有 Executor 点发生了故障或崩溃&＃xff0c;Spark 应用也可以继续执行&＃xff0c;会将出错节点上的任务调度到其他 Executor 节点上继续运行。Executor 有两个核心功能&＃xff1a;

1. 负责运行组成 Spark 应用的任务&＃xff0c;并将结果返回给驱动器进程&＃xff1b;

2. 通过自身的块管理器(Block Manager)为用户程序中要求缓存的 RDD提供内存式存储。RDD 是直接缓存在 Executor 进程内的&＃xff0c;因此任务可以在运行时充分利用缓存数据加速运算。

Spark 运行流程

不论spark以何种方式部署&＃xff0c;在任务提交后&＃xff0c;都先启动Driver&＃xff0c;然后Driver向集群管理器注册应用程序&＃xff0c;之后集群管理器根据此任务的配置文件分配Executor并启动&＃xff0c;然后Driver等待资源满足&＃xff0c;执行 main 函数&＃xff0c;Spark的查询为懒执行&＃xff0c;当执行到 action 算子时才开始真正执行&＃xff0c;开始反向推算&＃xff0c;根据宽依赖进行 stage 的划分&＃xff0c;随后每一个 stage 对应一个 taskset&＃xff0c;一个taskset 中有多个 task&＃xff0c;task 会被分发到指定的 Executor 去执行&＃xff0c;在任务执行的过程中&＃xff0c;Executor 也会不断与 Driver 进行通信&＃xff0c;报告任务运行情况。

2.spark的部署模式

2.1 spark部署类型

Spark共支持3种集群管理器&＃xff0c;Standalone&＃xff0c;Mesos和Yarn

Standalone&＃xff1a;

独立模式&＃xff0c;Spark 原生的最简单的一个集群管理器。它可以运行在各种操作系统上&＃xff0c;自带完整的服务&＃xff0c;无需依赖任何其他资源管理系统&＃xff0c;使用 Standalone 可以很方便地搭建一个集群。

Apache Mesos

Mesos也是一个强大的分布式资源管理框架&＃xff0c;是以与Linux内核同样的原则而创建的&＃xff0c;允许多种不同的框架部署在其上

Hadoop Yarn

Hadoop生态下的统一资源管理机制&＃xff0c;在上面可以运行多套计算框架&＃xff0c;如mapreduce、spark 等&＃xff0c;根据 driver 在集群中的位置不同&＃xff0c;部署模式可以分为 yarn-client 和 yarn-cluster。

Spark 的运行模式取决于传递给 SparkContext 的 MASTER 环境变量的值&＃xff0c;spark在yarn上部署:

yarn-client&＃xff1a;Driver在本地&＃xff0c;Executor在Yarn集群&＃xff0c;配置&＃xff1a;--deploy-mode client

yarn-cluster&＃xff1a;Driver和Executor都在Yarn集群&＃xff0c;配置&＃xff1a;--deploy-mode cluster

2.2 Yarn模式下的运行机制

当前流行的工作模式均是将spark提交到Yarn上&＃xff0c;所以这里我们针对spark on Yarn做一下详细了解。

yarn-client 模式

在YARNClient模式下&＃xff0c;Driver在任务提交的本地机器上运行&＃xff0c;Driver会向ResourceManager申请启动ApplicationMaster&＃xff0c;随后ResourceManager分配container&＃xff0c;在合适的NodeManager上启动ApplicationMaster&＃xff0c;此时的ApplicationMaster的功能相当于一个ExecutorLaucher&＃xff0c;只负责向ResourceManager申请Executor内存。

ResourceManager接到ApplicationMaster的资源申请后会分配container&＃xff0c;然后

ApplicationMaster在资源分配指定的NodeManager上启动Executor进程&＃xff0c;Executor进程启动后会向Driver反向注册。另外一条线&＃xff0c;Driver自身资源满足的情况下&＃xff0c;Driver开始执行main函数&＃xff0c;之后执行Action算子时&＃xff0c;触发一个job&＃xff0c;并根据宽依赖开始划分stage&＃xff0c;每个stage生成对应的taskSet&＃xff0c;Executor注册完成后&＃xff0c;Driver将task分发到各个Executor上执行。

yarn-cluster

在 YARN Cluster 模式下&＃xff0c;任务提交后会和 ResourceManager 通讯申请启动ApplicationMaster&＃xff0c;随后 ResourceManager 分配 container&＃xff0c;在合适的 NodeManager上启动 ApplicationMaster&＃xff0c;此时的ApplicationMaster 就是 Driver。

Driver 启动后向 ResourceManager 申请 Executor 内存&＃xff0c;ResourceManager会分配container&＃xff0c;然后在合适的 NodeManager 上启动 Executor 进程&＃xff0c;Executor 进程启动后会向 Driver 反向注册。另外一条线&＃xff0c;Driver自身资源满足的情况下&＃xff0c;开始执行main函数&＃xff0c;之后执行Action算子时&＃xff0c;触发一个job&＃xff0c;并根据宽依赖开始划分stage&＃xff0c;每个stage生成对应的taskSet&＃xff0c;Executor注册完成后&＃xff0c;Driver将task分发到各个Executor上执行。

3.Spark 任务调度

Driver会根据用户程序准备任务&＃xff0c;并向Executor分发任务&＃xff0c;在这儿有几个Spark的概念需要先介绍一下&＃xff1a;

Job&＃xff1a;以Action算子为界&＃xff0c;遇到一个Action方法就触发一个Job

Stage&＃xff1a;Job的子集&＃xff0c;一个job至少有一个stage&＃xff0c;以shuffle(即RDD宽依赖)为界&＃xff0c;一个shuffle划分一个stage

Task&＃xff1a; Stage 的子集&＃xff0c;以并行度(分区数)来衡量&＃xff0c;分区数是多少&＃xff0c;则有多少

个 task。

spark在具体任务的调度中&＃xff0c;总的分两路进行&＃xff1a;Stage级别调度和Task级别调度。Spark RDD通过转换(Transactions)算子&＃xff0c;形成了血缘关系图DAG&＃xff0c;最后通过行动(Action)算子&＃xff0c;触发Job并调度执行。

DAGScheduler负责Stage级的调度&＃xff0c;主要是将DAG切分成若干Stages&＃xff0c;并将每个Stage打包成TaskSet交给TaskScheduler调度。

TaskScheduler负责Task级的调度&＃xff0c;将DAGScheduler给过来的TaskSet按照指定的调度策略分发到Executor上执行

3.1 Spark Stage级调度

Spark的任务调度是从DAG切割开始&＃xff0c;主要是由DAGScheduler来完成。当遇到一个Action操作后就会触发一个Job的计算&＃xff0c;并交给DAGScheduler来处理。

DAGScheduler主要做两个部分的事情&＃xff1a;

切分stage

DAGScheduler会根据RDD的血缘关系构成的DAG进行切分&＃xff0c;将一个Job划分为若干Stages&＃xff0c;具体划分策略是&＃xff1a;从后往前&＃xff0c;由最终的RDD不断通过依赖回溯判断父依赖是否是宽依赖&＃xff0c;遇到一个shuffle就划分一个Stage。无shuffle的称为窄依赖&＃xff0c;窄依赖之间的RDD被划分到同一个Stage中。划分的Stages分两类&＃xff0c;一类叫做ResultStage&＃xff0c;为DAG最下游的Stage&＃xff0c;由Action方法决定&＃xff0c;另一类叫做ShuffleMapStage&＃xff0c;为下游Stage准备数据。

stage任务调度本身是一个反向的深度遍历算法&＃xff0c;以下图wordcount为例。此处只有saveAsTextFile为行动算子&＃xff0c;该 Job 由 RDD-3 和 saveAsTextFile方法组成&＃xff0c;根据依赖关系回溯&＃xff0c;知道回溯至没有依赖的RDD-0。回溯过程中&＃xff0c;RDD-2和RDD-3存在reduceByKey的shuffle&＃xff0c;会划分stage&＃xff0c;由于RDD-3在最后一个stage&＃xff0c;即划为ResultStage&＃xff0c;RDD-2&＃xff0c;RDD-1&＃xff0c;RDD-0&＃xff0c;这些依赖之间的转换算子flatMap&＃xff0c;map没有shuffle&＃xff0c;因为他们之间是窄依赖&＃xff0c;划分为ShuffleMapStage。

打包Taskset提交Stage

一个Stage如果没有父Stage&＃xff0c;那么从该Stage开始提交&＃xff0c;父Stage执行完毕才能提交子Stage。Stage提交时会将Task信息(分区信息以及方法等)序列化并被打包成TaskSet交给TaskScheduler&＃xff0c;一个Partition对应一个Task&＃xff0c;另一方面TaskScheduler会监控Stage的运行状态&＃xff0c;只有Executor丢失或者Task由于Fetch失败才需要重新提交失败的Stage以调度运行失败的任务&＃xff0c;其他类型的Task失败会在TaskScheduler的调度过程中重试。

3.2 Spark Task 级调度

SparkTask的调度是由TaskScheduler来完成&＃xff0c;TaskScheduler将接收的TaskSet封装为TaskSetManager加入到调度队列中。同一时间可能存在多个TaskSetManager&＃xff0c;一个TaskSetManager对应一个TaskSet&＃xff0c;而一个TaskSet含有n多个task信息&＃xff0c;这些task都是同一个stage的。

TaskScheduler初始化后会启动SchedulerBackend&＃xff0c;它负责跟外界打交道&＃xff0c;接收Executor的注册信息&＃xff0c;并维护Executor的状态&＃xff0c;SchedulerBackend会监控到有资源后&＃xff0c;会询问TaskScheduler有没有任务要运行&＃xff0c;TaskScheduler会从调度队列中按照指定的调度策略选择TaskSetManager去调度运行。

TaskSetManager按照一定的调度规则一个个取出task给TaskScheduler&＃xff0c;TaskScheduler再交给SchedulerBackend去发到Executor上执行。

Task被提交到Executor启动执行后&＃xff0c;Executor会将执行状态上报给SchedulerBackend&＃xff0c;SchedulerBackend则告诉TaskScheduler&＃xff0c;TaskScheduler找到该Task对应的TaskSetManager&＃xff0c;并通知到该TaskSetManager&＃xff0c;这样TaskSetManager就知道Task的运行状态

3.3 失败重试和白名单

对于运行失败的Task&＃xff0c;TaskSetManager会记录它失败的次数&＃xff0c;如果失败次数还没有超过最大重试次数&＃xff0c;那么就把它放回待调度的Task池子中等待重新执行&＃xff0c;当重试次数过允许的最大次数&＃xff0c;整个Application失败。在记录Task失败次数过程中&＃xff0c;TaskSetManager还会记录它上一次失败所在的ExecutorId和Host&＃xff0c;这样下次再调度这个Task时&＃xff0c;会使用黑名单机制&＃xff0c;避免它被调度到上一次失败的节点上&＃xff0c;起到一定的容错作用。

关于找一找教程网

本站文章仅代表作者观点&＃xff0c;不代表本站立场&＃xff0c;所有文章非营利性免费分享。

本站提供了软件编程、网站开发技术、服务器运维、人工智能等等IT技术文章&＃xff0c;希望广大程序员努力学习&＃xff0c;让我们用科技改变世界。

[一篇文章搞清spark任务如何执行]http://www.zyiz.net/tech/detail-120141.html

推荐阅读

string
Java中包装类的设计原因以及操作方法

本文主要介绍了Java中设计包装类的原因以及操作方法。在Java中，除了对象类型，还有八大基本类型，为了将基本类型转换成对象，Java引入了包装类。文章通过介绍包装类的定义和实现，解答了为什么需要包装类的问题，并提供了简单易用的操作方法。通过本文的学习，读者可以更好地理解和应用Java中的包装类。 ... [详细]

蜡笔小新 2023-12-12 15:48:10
match
PHP图片截取方法及应用实例

本文介绍了使用PHP动态切割JPEG图片的方法，并提供了应用实例，包括截取视频图、提取文章内容中的图片地址、裁切图片等问题。详细介绍了相关的PHP函数和参数的使用，以及图片切割的具体步骤。同时，还提供了一些注意事项和优化建议。通过本文的学习，读者可以掌握PHP图片截取的技巧，实现自己的需求。 ... [详细]

蜡笔小新 2023-12-14 16:44:09
post
阿里云物联网 .NET Core 客户端 | CZGL.AliIoTClient：4. 设备上报属性

阿,里,云,物,联网,net,core,客户端,czgl,aliiotclient, ... [详细]

蜡笔小新 2023-12-14 12:40:20
string
JavaSE笔试题-接口、抽象类、多态等问题解答

本文解答了JavaSE笔试题中关于接口、抽象类、多态等问题。包括Math类的取整数方法、接口是否可继承、抽象类是否可实现接口、抽象类是否可继承具体类、抽象类中是否可以有静态main方法等问题。同时介绍了面向对象的特征，以及Java中实现多态的机制。 ... [详细]

蜡笔小新 2023-12-14 10:01:13
utf-8
eclipse学习（第三章：ssh中的Hibernate）——11.Hibernate的缓存（2级缓存，get和load）

本文介绍了eclipse学习中的第三章内容，主要讲解了ssh中的Hibernate的缓存，包括2级缓存和get方法、load方法的区别。文章还涉及了项目实践和相关知识点的讲解。 ... [详细]

蜡笔小新 2023-12-14 00:31:35
string
关于cuowu类的错误提示和使用AdjustmentListener的问题

本文讨论了一个关于cuowu类的问题，作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案，并给出了两个可能导致错误的原因。 ... [详细]

蜡笔小新 2023-12-13 22:09:56
string
图解redis的持久化存储机制RDB和AOF的原理和优缺点

本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件，恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘，实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点，帮助读者更好地理解redis的持久化存储策略。 ... [详细]

蜡笔小新 2023-12-13 20:24:11
php
解决Mac上无法使用localhost连接mysql的问题

本文介绍了在Mac上搭建php环境后无法使用localhost连接mysql的问题，并通过将localhost替换为127.0.0.1或本机IP解决了该问题。文章解释了localhost和127.0.0.1的区别，指出了使用socket方式连接导致连接失败的原因。此外，还提供了相关链接供读者深入了解。 ... [详细]

蜡笔小新 2023-12-13 17:48:58
php
计算机存储系统的层次结构及其优势

本文介绍了计算机存储系统的层次结构，包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体，形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低，使得整体存储系统的平均价格降低。同时，高速缓存的存取速度可以和CPU的工作速度相匹配，进一步提高程序执行效率。 ... [详细]

蜡笔小新 2023-12-13 17:32:41
spring
org.apache.catalina.LifecycleEvent类的使用及代码示例

标题： ... [详细]

蜡笔小新 2023-12-13 11:03:10
spring
Linux下Kafka单机安装配置方法（实操成功）

本文介绍了在Linux下安装和配置Kafka的方法，包括安装JDK、下载和解压Kafka、配置Kafka的参数，以及配置Kafka的日志目录、服务器IP和日志存放路径等。同时还提供了单机配置部署的方法和zookeeper地址和端口的配置。通过实操成功的案例，帮助读者快速完成Kafka的安装和配置。 ... [详细]

蜡笔小新 2023-12-12 18:14:32
php
Composer依赖管理的重要性及使用方法

本文介绍了Composer依赖管理的重要性及使用方法。对于现代语言而言，包管理器是标配，而Composer作为PHP的包管理器，解决了PEAR的问题，并且使用简单，方便提交自己的包。文章还提到了使用Composer能够避免各种include的问题，避免命名空间冲突，并且能够方便地安装升级扩展包。 ... [详细]

蜡笔小新 2023-12-11 17:06:18
php
操作系统的定义和功能

本文介绍了操作系统的定义和功能，包括操作系统的本质、用户界面以及系统调用的分类。同时还介绍了进程和线程的区别，包括进程和线程的定义和作用。 ... [详细]

蜡笔小新 2023-12-11 14:17:13
install
Centos下安装memcached+memcached教程

本文介绍了在Centos下安装memcached和使用memcached的教程，详细解释了memcached的工作原理，包括缓存数据和对象、减少数据库读取次数、提高网站速度等。同时，还对memcached的快速和高效率进行了解释，与传统的文件型数据库相比，memcached作为一个内存型数据库，具有更高的读取速度。 ... [详细]

蜡笔小新 2023-12-10 17:10:24
string
Android开发优化之软引用与弱引用的应用

本文介绍了在Android开发中使用软引用和弱引用的应用。如果一个对象只具有软引用，那么只有在内存不够的情况下才会被回收，可以用来实现内存敏感的高速缓存；而如果一个对象只具有弱引用，不管内存是否足够，都会被垃圾回收器回收。软引用和弱引用还可以与引用队列联合使用，当被引用的对象被回收时，会将引用加入到关联的引用队列中。软引用和弱引用的根本区别在于生命周期的长短，弱引用的对象可能随时被回收，而软引用的对象只有在内存不够时才会被回收。 ... [详细]

蜡笔小新 2023-12-10 16:33:12

耿睿---疯子

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章