6SparkJob作业提交流程之旅

作者：手机用户2502862657 | 来源：互联网 | 2023-09-03 15:36

By云端上的男人—DT大数据梦工厂上一次笔者大致阐述了一下DAGScheduler中Stage的划分，这次笔者将会阐述一下关于一个Job作业在提交的过程中所涉及到的一些参与相关的实

By云端上的男人—DT大数据梦工厂

上一次笔者大致阐述了一下DAGScheduler中Stage的划分，这次笔者将会阐述一下关于一个Job作业在提交的过程中所涉及到的一些参与相关的实体，如图所示是Driver端Job提交的流程图。

《6 Spark Job作业提交流程之旅》图1

笔者所写的博客面对的人员是有scala基础以及对进程和线程有相关概念的人员和spark会基本使用的人员,如果大家有的对scala不是很熟悉的话,请大家观看家林老师的相关的scala教程链接：链接：http://pan.baidu.com/s/1c2irB9I 密码：t2bf

Spark基础相关的链接链接：链接：http://pan.baidu.com/s/1dEG5m7J 密码：atdx

如图所示，job提交大致划分为10个步骤。

1：用户程序有action算子触发一系列的语句，都是可以看成一个job。例子如下

sc.parallelize(1to100,4).map( ( _ ,1) ).reduceByKey( _ + _ ,3).collect

(注：一个用户程序可以有多个Job，而且在用户程序中生成的Stage可以被多个Job使用，不过笔者在这里目前不讨论这些情况，只讨论最简洁的使用即可)

2：由1提交的语句除去action算子，然后把所有的生成的RDD提交给DAGScheduler实体，并按照宽依赖进行Stage划分。如图所示，两个ShuffleMapStage，一个ResultStage。(这些内容读者可以阅读笔者的上次博客)。

3：把生成的Stage提交给TaskSchedulerImpl实体，TaskSchedulerImpl实体会把Stage封装在一个TaskSetManager实体中，然后TaskSchedulerImpl实体会经过图中4步骤会把已封装TaskSetManager的实体放入到Pool实体中。这个Pool实体则是代表着真正管理所有的Stage。也就是说，在每个Stage之下，Spark又把Stage划分为多个Task。这些Task又分为ShuffleMapTask和ResultTask两种。如上图所示。

4：如步骤3中所示，但是笔者在这里只考虑的是FIFO模式(即TaskSetManager是按照)。关于FAIR公平调度模式，读者可以自行搜索。FIFO意义在于多个Job之间的运行是先入先出，即先到的Job，先获得资源，然后运行完之后在第二个Job开始运行，以此类推，Stage之间因为有依赖，所以其计算也必须有依赖(一般情况),所以在真正把计算任务提交的时候，就需要约束这个条件，即先计算依赖的Stage的任务(Task),然后再计算当前这个Stage所代表的Task。

5：把生成的Task传递给CoarseGrainedSchedulerBackend实体，该实体通过步骤6负责把Task任务传递给driver所对应的还活着的计算节点中。

6：笔者之前阐述过RpcEndPoint相关的知识，而CoarseGrainedSchedulerBackend中存在着这样的一个实体。该实体则会与外部的RpcEndPoint实体通信，通过Netty框架把我们的Task任务传输过去。

7：既然我们的计算集群是计算任务的，那么想必就必须有结果返回给Driver(注：这里的Driver就是CoarseGrainedSchedulerBackend才对。所以该步骤就是要把计算后的结果返回给Driver。但是笔者在阅读源码的时候看到，计算节点返回的结果因Task任务运行的状态的不同是返回不同的结果。或者说是一类是真正用户需要的结果，则一类则是计算失败返回的失败结果的原因。不过慢慢的笔者也理解这里面所涉及的思路，如果是正常把结果返回了，框架的确并不要关注其他的事情。只有到返回的结果是失败的内容的时候，框架就需要考虑容错。这种思路是很常见。

8：由Driver接收到的结果路由到TaskSchedulerImpl实体来帮忙做处理。Driver

实体只是处理一些在其实体中的元数据的信息，然后如步骤7所说的，根据返回结果的不同让TaskSchedulerImpl实体做不同的处理。

9：其实TaskSchedulerImpl实体只是处理一些在其实体中的元数据的信息而已，真正做结果的处理是路由到TaskResultGetter实体。如上所说，接收到结果一类是真正的数据，另一类则是任务的失败的一些信息。

10：9把接收的数据的结果处理完后，又把控制权交给了TaskSchedulerImpl实体，该实体会根据9得到的结果的类型来做相应的不同的处理的步骤。

。。。。还有好多细节的步骤，笔者并不能一一细说，希望读者自己尝试着试试。或者笔者以后有时间我们在继续这底层的细节。

接下来，我们看一下Driver把Task任务传递到CoarseGrainedExecutorBackend实体端流程，即我们把视角转到了计算节点中的某一个实体来讨论。

《6 Spark Job作业提交流程之旅》

1：和上面图中的最后的一步做衔接，CoarseGrainedSchedulerBackend实体把Task任务传递到集群某个CoarseGrainedExecutorBackend实体的计算节点中以便于计算。

2：和上面某些地方类似CoarseGrainedExecutorBackend实体本身就是一个RpcEndpoint实体，是用于接收和处理消息来使用的，也就是说CoarseGrainedExecutorBackend实体把真正要计算的事情交给了Exeutor实体来做计算。

3：如果读者熟悉Java中线程池技术的话，或许会知道一个接口即：

《6 Spark Job作业提交流程之旅》图3

在java中，这样的接口具体实现类，以及相应的工厂方法我们更为的熟悉，即Executors工厂类，在Saprk中，我们也看到了一个类，而且名字是一样，图4所示。这两个类的思想极为相似，即把任务提交给Executor实体(或者是其继承类)，然后让其中的某个线程来执行所需要的结果。而在我们的Spark中，是通过使用TaskRunner在此封装来做任务的计算，而真正要计算的还是Driver(在这里CoarseGrainedSchedulerBackend是主要作用)传递过来的Task。

《6 Spark Job作业提交流程之旅》图4

4:这一步骤就是TaskRunner把Task计算好的任务的结果返回给Driver，在这里笔者需要说明说明的是，Task计算的任务有可能成功，也有一些则不会，所以有了两类结果。即之前所说的是Task计算后的结果，一类则是Task计算失败需要返回的失败原因的结果。

5：这一步则是依靠CoarseGrainedExecutorBackend实体，把计算结果反馈给我们的Driver，以便于Driver本身的处理。

推荐阅读

eval
Scala学习指南：从零开始掌握基础

本指南从零开始介绍Scala编程语言的基础知识，重点讲解了Scala解释器REPL（读取-求值-打印-循环）的使用方法。REPL是Scala开发中的重要工具，能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习，读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]

蜡笔小新 2024-11-07 18:07:59
数组
深入解析OpenCV中的人脸检测算法实现

本文详细探讨了OpenCV中人脸检测算法的实现原理与代码结构。通过分析核心函数和关键步骤，揭示了OpenCV如何高效地进行人脸检测。文章不仅提供了代码示例，还深入解释了算法背后的数学模型和优化技巧，为开发者提供了全面的理解和实用的参考。 ... [详细]

蜡笔小新 2024-11-02 13:37:20
search
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
数组
浅析python实现布隆过滤器及Redis中的缓存穿透原理_python

本文带你了解了位图的实现，布隆过滤器的原理及Python中的使用，以及布隆过滤器如何应对Redis中的缓存穿透，相信你对布隆过滤 ... [详细]

蜡笔小新 2024-11-13 16:43:07
数组
美团优选推荐系统架构师 L7/L8：算法与工程深度融合

美团优选推荐系统架构师 L7/L8：算法与工程深度融合 ... [详细]

蜡笔小新 2024-11-05 19:10:28
search
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
数组
深入掌握Scala面向对象编程与Spark源码解析

在第二课中，我们将深入探讨Scala的面向对象编程核心概念及其在Spark源码中的应用。首先，通过详细的实战案例，全面解析Scala中的类和对象。作为一门纯面向对象的语言，Scala的类设计和对象使用是理解其面向对象特性的关键。此外，我们还将介绍如何通过阅读Spark源码来进一步巩固对这些概念的理解。这不仅有助于提升编程技能，还能为后续的高级应用开发打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-03 14:51:55
io
三角测量计算三维坐标的代码_双目三维重建——层次化重建思考

双目三维重建——层次化重建思考FesianXu2020.7.22atANTFINANCIALintern前言本文是笔者阅读[1]第10章内容的笔记，本文从宏观的角度阐 ... [详细]

蜡笔小新 2024-11-13 19:31:37
io
非计算机专业的朋友如何拿下多个Offer

大家好，我是归辰。秋招结束后，我已顺利入职，并应公子龙的邀请，分享一些秋招面试的心得体会，希望能帮助到学弟学妹们，让他们在未来的面试中更加顺利。 ... [详细]

蜡笔小新 2024-11-13 18:41:58
instance
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40
io
深入理解ASCII、ANSI、GB2312、UNICODE及UTF-8、UTF-16编码

本文回顾了作者初次接触Unicode编码时的经历，并详细探讨了ASCII、ANSI、GB2312、UNICODE以及UTF-8和UTF-16编码的区别和应用场景。通过实例分析，帮助读者更好地理解和使用这些编码。 ... [详细]

蜡笔小新 2024-11-13 07:33:27
io
面试中如何回答“零拷贝”技术问题？

零拷贝技术是提高I/O性能的重要手段，常用于Java NIO、Netty、Kafka等框架中。本文将详细解析零拷贝技术的原理及其应用。 ... [详细]

蜡笔小新 2024-11-13 02:03:52
io
【刷题篇】Java 不用Math.sqrt() 如何求一个数的平方根

题目：在不用Math.sqrt()方法中如何求解一个大于1的数的平方根题解一、牛顿迭代法计算x2n的解，令f(x)x2-n，相当于求解f( ... [详细]

蜡笔小新 2024-11-12 17:01:38
version
Java 并发编程：深入解析 AtomicInteger 和 CAS 无锁算法

在多线程并发环境中，普通变量的操作往往是线程不安全的。本文通过一个简单的例子，展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]

蜡笔小新 2024-11-12 16:40:04
instance
开发心得：深入探讨Servlet、Dubbo与MyBatis中的责任链模式应用

开发心得：深入探讨Servlet、Dubbo与MyBatis中的责任链模式应用 ... [详细]

蜡笔小新 2024-10-31 20:30:19

手机用户2502862657

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章