当前位置: 开发笔记 > 编程语言 > 正文

Spark源码（7）SparkContext初始化源码分析

作者：BB15107669916 | 来源：互联网 | 2023-10-10 19:45

一、SparkContext初始化上次阅读到Master通知Worker启动了一个Driver，就是启动了一个JVM，并且开始使用反射的方式执行Dri

一、SparkContext 初始化

上次阅读到 Master 通知 Worker 启动了一个 Driver&＃xff0c;就是启动了一个 JVM&＃xff0c;并且开始使用反射的方式执行 DriverWrapper 的 main 方法。

假设我们提交了一个 JavaWordCount 程序到集群上&＃xff0c;其实接下来就开始执行这个方法&＃xff1a;

然后开始创建 SparkContext

SparkSession spark &＃61; SparkSession.builder().appName("JavaWordCount").getOrCreate();

点进去&＃xff0c;可以看到&＃xff1a;

SparkContext.getOrCreate(sparkConf)

这里 new 了一个 SparkContext()&＃xff0c;然后开始看 SparkContext 的构造方法&＃xff0c;这个方法尤其的长&＃xff0c;但我们得抓住重点。

重点就在 500 多行的这里&＃xff0c;创建了 SchedulerBackend&＃xff0c;TaskScheduler&＃xff0c;DAGScheduler

下面简单的介绍下这三个核心组件的作用&＃xff1a;

&＃xff08;1&＃xff09;TaskScheduler

TaskScheduler 是一个 trait&＃xff0c;它的核心任务是提交 TaskSet 到集群并汇报结果&＃xff0c;并且向 DAGScheduler 汇报任务的执行情况。

主要实现类是 TaskSchedulerImpl

&＃xff08;2&＃xff09;SchedulerBackend

SchedulerBackend 也是一个 trait&＃xff0c;不同的部署模式有不同的实现&＃xff0c;比如在 standalone 模式下&＃xff0c;实现类是&＃xff1a;StandaloneSchedulerBackend。

它内部有两个 Endpoint 组件&＃xff0c;一个是 DriverEndpoint &＃xff0c;用来和 Worker 打交道&＃xff0c;比如创建 Executor、提交 Task 等&＃xff1b;一个是 ClientEndpoint 用来和 master 打交道。

SchedulerBackend 专门负责收集 Worker 上的资源信息&＃xff0c;它知道每个任务在提交时&＃xff0c;自己拥有多少资源&＃xff0c;然后去具体运行 Task。

&＃xff08;3&＃xff09;DAGScheduler

DAGScheduler 的主要作用是&＃xff1a;当执行 action 算子的时候&＃xff0c;DAGScheduler 会从最后一个 rdd 开始往前递归寻找 ShuffleDependency&＃xff0c;每找到一个就会划分一个 stage&＃xff0c;最终达到的目的是&＃xff0c;根据业务逻辑算子依赖关系&＃xff0c;划分成一个个 stage&＃xff0c;并且根据 stage 先后关系&＃xff0c;把 stage 转化成 ShuffleMapTask 或者 ResultTask&＃xff0c;封装成 TaskSet&＃xff0c;交给 TaskScheduler 提交。

最后要注意的是&＃xff0c;DAGScheduler 和 SchedulerBackend 都是 TaskSchedulerImpl 的成员变量。

二、TaskScheduler 的创建

下面回到创建 TaskScheduler 的地方&＃xff1a;

val (sched, ts) &＃61; SparkContext.createTaskScheduler(this, master, deployMode)

这个方法中&＃xff0c;主要是根据不同的部署模式&＃xff0c;分别创建不同的 TaskScheduler 和 SchedulerBackend。

在 Standalone 模式下&＃xff1a;

创建了 TaskSchedulerImpl 对象和 StandaloneSchedulerBackend 对象。

在 TaskSchedulerImpl 的构造方法中&＃xff0c;看到了两个重要的属性&＃xff0c;dagScheduler 和 backend&＃xff0c;其他倒没有什么逻辑了。

然后看到 StandaloneSchedulerBackend 的构造方法

这里要注意一下继承关系&＃xff0c;继承了 CoarseGrainedSchedulerBackend

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GwvcTFpp-1637895026068)(C:/Users/wangkai/AppData/Roaming/Typora/typora-user-images/image-20210927222927252.png)]

然后父类里有一个很重要的属性&＃xff0c;在执行构造的方法的时候&＃xff0c;就会执行这个

也就是说&＃xff0c;在这句代码执行的时候&＃xff1a;

val backend &＃61; new StandaloneSchedulerBackend(scheduler, sc, masterUrls)

其实&＃xff0c;就创建了一个 DriverEndpoint 组件了&＃xff0c;那么紧接着就需要看一下 DriverEndpoint 类的 onStart() 方法&＃xff1a;

每间隔一段时间&＃xff0c;就给自己发送了一个 ReviveOffers 消息

这个消息的处理逻辑就很长了&＃xff0c;需要单独一次来阅读了。可以一句话总结它干的事情&＃xff1a;过滤出所有的资源&＃xff0c;找到所有需要启动的 TaskSet&＃xff0c;分配资源&＃xff0c;启动任务。

然后再回来看 StandaloneSchedulerBackend 的构造方法&＃xff0c;构造方法里没有逻辑&＃xff0c;接着回到 SparkContext 往下看。

接下来&＃xff0c;scheduler 调用了 initialize 方法&＃xff1a;

scheduler.initialize(backend)

这个方法就把当前的 SchedulerBackend 绑定到自己的成员属性上&＃xff1a;

接着 new 了 DAGScheduler

_dagScheduler &＃61; new DAGScheduler(this)

然后启动 TaskScheduler()

_taskScheduler.start()

三、TaskScheduler 的启动

首先看到实现类 TaskSchedulerImpl 类的 start() 方法

调动了内部的 SchedulerBackend 的启动方法&＃xff1a;

这个方法中&＃xff0c;首先封装了一个 CoarseGrainedExecutorBackend 类的启动命令

把这个 Command 封装到 ApplicationDescription&＃xff0c;应用程序的描述信息中

然后把 ApplicationDescription 作为成员变量&＃xff0c;并且还创建了一个 StandaloneAppClient 对象

然后给启动了起来&＃xff0c;new 了一个 ClientEndpoint() &＃xff0c;注意这是一个 Endpoint

看一下它的 onStart() 方法&＃xff0c;向 Master 注册

最终是给 Master 发送了一个 RegisterApplication 消息&＃xff0c;消息里有 ApplicationDescription&＃xff08;应用程序的描述信息&＃xff09;

四、总结

这一切都做完之后&＃xff0c;SparkContext() 最核心的地方就阅读完了&＃xff0c;总结一下就是创建了 DAGScheduler、TaskScheduler、SchedulerBackend 三大组件。并且 SchedulerBackend 内部有两个 Endpoint&＃xff0c;DriverEndpoint 和 ClientEndpoint&＃xff0c;分别从来和 Worker 通信、和 Master 通信。

下次我们来阅读 Master 处理 Driver 的注册应用程序的消息。

下面是目前的流程图&＃xff1a;

推荐阅读

jsp
Centos7 Tomcat9 安装笔记

centos7,tom ... [详细]

蜡笔小新 2024-11-17 18:15:16
select
Kubernetes Services详解

本文深入探讨了Kubernetes中的服务（Services）概念，解释了如何通过Services实现Pods之间的稳定通信，以及如何管理没有选择器的服务。 ... [详细]

蜡笔小新 2024-11-24 18:37:01
string
HDU 2537 键盘输入处理

题目描述了一个名叫Pirates的男孩想要开发一款键盘输入软件，遇到了大小写字母判断的问题。本文提供了该问题的解决方案及实现方法。 ... [详细]

蜡笔小新 2024-11-24 11:01:59
string
设计模式原则3依赖倒置原则

个人博客：打开链接依赖倒置原则定义依赖倒置原则(DependenceInversionPrinciple,DIP)定义如下：Highlevelmo ... [详细]

蜡笔小新 2024-11-24 10:45:18
string
Java高级工程师学习路径及面试准备指南

本文基于一位朋友的PDF面试经验整理，涵盖了Java高级工程师所需掌握的核心知识点，包括数据结构与算法、计算机网络、数据库、操作系统等多个方面，并提供了详细的参考资料和学习建议。 ... [详细]

蜡笔小新 2024-11-24 10:12:21
eval
使用 Pyglet 加载和显示图像

本文介绍了如何使用 Python 的 Pyglet 库加载并显示图像。Pyglet 是一个用于开发图形用户界面应用的强大工具，特别适用于游戏和多媒体项目。 ... [详细]

蜡笔小新 2024-11-23 15:23:32
copy
Java代码保护与混淆：ProGuard详解

在Java开发中，保护代码安全是一个重要的课题。由于Java字节码容易被反编译，因此使用代码混淆工具如ProGuard变得尤为重要。本文将详细介绍如何使用ProGuard进行代码混淆，以及其基本原理和常见问题。 ... [详细]

蜡笔小新 2024-11-18 16:46:17
copy
解决Jenkins编译过程中ERROR: Failed to Parse POMs的问题

在使用Jenkins进行自动化构建时，有时会遇到“ERROR: Failed to parse POMs”的错误。本文将详细分析该问题的原因，并提供有效的解决方案。 ... [详细]

蜡笔小新 2024-11-15 18:17:00
string
深入解析Java中的空指针异常及其预防策略

空指针异常（NullPointerException，简称NPE）是Java编程中最常见的异常之一。尽管其成因显而易见，但开发人员往往容易忽视或未能及时采取措施。本文将详细介绍如何有效避免空指针异常，帮助开发者提升代码质量。 ... [详细]

蜡笔小新 2024-11-15 15:04:40
buffer
兆芯X86 CPU架构的演进与现状（国产CPU系列）

本文详细介绍了兆芯X86 CPU架构的发展历程，从公司成立背景到关键技术授权，再到具体芯片架构的演进，全面解析了兆芯在国产CPU领域的贡献与挑战。 ... [详细]

蜡笔小新 2024-11-14 15:04:34
string
JVM钩子函数的应用场景详解

本文详细介绍了JVM钩子函数的多种应用场景，包括正常关闭、异常关闭和强制关闭。通过具体示例和代码演示，帮助读者更好地理解和应用这一机制。适合对Java编程和JVM有一定基础的开发者阅读。 ... [详细]

蜡笔小新 2024-11-13 18:34:48
buffer
使用Java调用阿里云服务发送短信验证码

本文介绍如何通过Java代码调用阿里云短信服务API来实现短信验证码的发送功能，包括必要的依赖添加和关键代码示例。 ... [详细]

蜡笔小新 2024-11-24 13:19:44
select
为何引入jQuery UI自动完成功能后，我的列表框也受到影响？

我在尝试将组合框转换为具有自动完成功能时遇到了一个问题，即页面上的列表框也被转换成了自动完成下拉框，而不是保持原有的多选列表框形式。 ... [详细]

蜡笔小新 2024-11-24 12:02:48
select
深入解析Socket结构与实现

本文详细介绍了Socket在Linux内核中的实现机制，包括基本的Socket结构、协议操作集以及不同协议下的具体实现。通过这些内容，读者可以更好地理解Socket的工作原理。 ... [详细]

蜡笔小新 2024-11-24 12:00:27
format
UVa 11683: 激光雕刻技术解析

自1958年发明以来，激光技术已在众多领域得到广泛应用，包括电子设备、医疗手术工具、武器等。本文将探讨如何使用激光技术进行材料雕刻，并通过编程解决一个具体的激光雕刻问题。 ... [详细]

蜡笔小新 2024-11-24 09:58:15

BB15107669916

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章