spark学习之资源调度

作者：迪迪 | 来源：互联网 | 2023-06-21 11:35

💌前一篇博客中，我们学习了spark代码的执行过程，其中涉及到了逻辑执行计划和物理执行计划，今天我们主要来学习spark的

&＃x1f48c;前一篇博客中&＃xff0c;我们学习了spark代码的执行过程&＃xff0c;其中涉及到了逻辑执行计划和物理执行计划&＃xff0c;今天我们主要来学习spark的资源调度的内容&＃xff0c;对往期内容感兴趣的同学可以参考如下内容&＃x1f447;:

上一篇: spark学习之执行计划explain.
hadoop专题: hadoop系列文章.
spark专题: spark系列文章.
flink专题: Flink系列文章.

&＃x1f421;说到spark的资源调度&＃xff0c;我们主要关心的是执行计算任务节点的资源调度的设置&＃xff0c;如单个Executor的核数、单个节点Executor的个数、单个Executor的内存大小等&＃xff0c;接下来将会对这些进行详细的介绍。

本文目录

1. 总体资源
- 1.1 Executor的核数
- 1.2 Executor的个数
- 1.3 Executor的内存
2. 内存资源
3. 持久化和序列化
- 3.1 RDD
- 3.2 Dataset和Dataframe
4. CPU资源
- 4.1 并行度
- 4.2 并发度
- 4.3 合理利用CPU
5. 总结
6. 参考文章

1. 总体资源

我们这里假设单台服务器的内存大小为128g,32个线程。

1.1 Executor的核数

executor-cores的个数决定任务的并行度&＃xff0c;也就是同时执行task的个数&＃xff0c;一般情况下&＃xff0c;executor-cores的个数设置为3&＃xff5e;6个之间比较合适。

1.2 Executor的个数

这里的Executor的个数是指整个集群的Executor的个数个数&＃xff0c;所以&＃xff1a;
$总的 e x e c u t o r 个数 &＃61; 每个节点的 e x e c u t o r 数 * w o r k 节点数$
那么单个节点的Executor个数如何计算&＃xff0c;单个节点所能接受的最大Executor个数和yarn给的资源和Executor的核数有关&＃xff0c;关系如下&＃xff1a;

$\dfrac{单节点 yarn 总核数}{每个 executor 的最大 cpu 核数}$

考虑到系统基础服务和 HDFS 等组件的余量&＃xff0c;yarn的nodemanager资源配置为&＃xff1a;28&＃xff0c;参数 executor-cores 的值为&＃xff1a;4&＃xff0c;那么每个 node 的 executor 数 &＃61; 28/4 &＃61; 7,假设集群节点为 10&＃xff0c;那么 num-executors &＃61; 7 * 10 &＃61; 70

1.3 Executor的内存

每个Executor的内存的大小也和yarn分配的资源有关系&＃xff1a;
$\dfrac{yarn总内存大小}{每个节点的 executor 数量}$
例如&＃xff1a;单个节点的 yarn 的参数配置为 100G&＃xff0c;那么每个 Executor 大概就是 100G/7≈14G,同时要注意yarn 配置中每个容器允许的最大内存是否匹配&＃xff0c;一般情况yarn默认配置的每个容器的内存大小范围为[1g,8g].

2. 内存资源

我们先来看一下spark的内存划分&＃xff1a;
在这里插入图片描述

storage空间&＃xff1a;用来存放cache、persist和广播变量的缓存数据。&＃xff08;Storage 内存 &＃61; 广播变量 &＃43; cache/Executor 数量&＃xff09;
executor空间&＃xff1a;主要负责执行计算过程中的内存开销&＃xff0c;比如shuffle过程需要的内存。&＃xff08;Executor 内存 &＃61; 每个 Executor 核数 * &＃xff08;数据集大小/并行度&＃xff09;&＃xff09;
other空间&＃xff1a;自定义的数据结构和元数据&＃xff0c;&＃xff08;Other 内存 &＃61; 自定义数据结构*每个 Executor 核数&＃xff09;

3. 持久化和序列化

我们先来介绍一下持久化和序列化在spark中的含义&＃xff1a;

持久化&＃xff1a;在不同操作间&＃xff0c;持久化&＃xff08;或缓存&＃xff09;一个数据集在内存中。当你持久化一个RDD&＃xff0c;每一个结点都将把它的计算分块结果保存在内存中&＃xff0c;并在对此数据集&＃xff08;或者衍生出的数据集&＃xff09;进行的其它动作中重用。这将使得后续的动作&＃xff08;action&＃xff09;变得更加迅速&＃xff08;通常快10倍&＃xff09;。
序列化&＃xff1a;序列化是将对象的状态信息转换为可以存储或传输的形式的过程&＃xff0c;主要目的有两个&＃xff1a;1. 存储到磁盘&＃xff1b; 2. 通过网络进行传输&＃xff1b;而在spark中&＃xff0c;算子相关的操作在Excutor上执行&＃xff0c;算子之外的代码在Driver端执行&＃xff0c;在执行有些算子的时候&＃xff0c;需要只用到Driver里面定义的数据&＃xff0c;这就涉及到了跨进程或着跨节点之间的通讯&＃xff0c;所以要求传递给Excutor中的数组所属的类型必须实现Serializable接口。

3.1 RDD

我们使用rdd持久化时&＃xff0c;默认 cache 缓存级别&＃xff08;memory_only&＃xff09;&＃xff0c;如果此时存储内存较小&＃xff0c;可以采用kryo&＃43;序列化缓存&＃xff0c;可以优化存储内存占用。

3.2 Dataset和Dataframe

我们使用dataset持久化时&＃xff0c;默认cache缓存级别&＃xff08;memory_and_disk&＃xff09;,即内存不够磁盘来凑&＃xff0c;如果采用序列化的方式&＃xff0c;实际效果和未序列化差别不大&＃xff0c;因为Dataset和Dataframe是被优化过的rdd&＃xff0c;所以开发中直接使用cache缓存即可。

总体来说&＃xff0c;如果使用RDD进行持久化&＃xff0c;建议采用kryo序列化&＃43;持久化的操作&＃xff0c;如果使用Dataset和Dataframe直接使用cache持久化即可。从性能上来讲&＃xff0c;DataSet,DataFrame 优于 RDD&＃xff0c;建议开发中使用 DataSet、DataFrame。

4. CPU资源

首先来了解几个非常容易搞混的概念&＃xff1a;

4.1 并行度

并行度指的就是task的数量&＃xff0c;或者说分区数量

rdd的控制方法&＃xff1a;spark.default.parallelism&＃xff0c;根据算子计算决定
sql的控制方法&＃xff1a;spark.sql.shuffle.partitions&＃xff0c;默认200

4.2 并发度

并发度指的可同时执行的最大task数量&＃xff0c;那这和并行度有何区别&＃xff0c;首先并行度是指一个任务需要多少个分区&＃xff0c;比如groupby之后产生了200个分区&＃xff08;200task&＃xff09;&＃xff0c;但是我们的executor只有2个核&＃xff0c;即我们最多同时执行2个task&＃xff0c;那么这个任务的并发度就是2&＃xff0c;并行度是200。每次执行2个task&＃xff0c;执行完后换上下一个task&＃xff0c;一直到执行完200个。

4.3 合理利用CPU

下面两种情况会导致CPU效率过低&＃xff1a;

并行度较低、数据分片较大容易导致 CPU 线程挂起&＃xff08;处理数据量大&＃xff09;
并行度过高、数据过于分散会让调度开销更多&＃xff08;task数量过多&＃xff09;

根据经验&＃xff1a;一般会将并行度&＃xff08;task 数&＃xff09;设置成并发度 &＃xff08;vcore 数&＃xff09;的 2 倍到 3 倍。

这一部分的详细内容可参考: spark学习之并行度、并发、core数和分区的关系.

5. 总结

本博客主要介绍了spark运行过程中的一些资源调度的情况&＃xff0c;以及如何配置资源调度使spark的运行效率得到提高&＃xff0c;主要从内存、持久化、cpu资源等方面进行了介绍。

6. 参考文章

《尚硅谷大数据技术之 Spark 调优》
《spark权威指南》
链接: spark持久化.
链接: 序列化的定义.

推荐阅读

ip
Hadoop之Yarn

目录1Hadoop1.x和Hadoop2.x架构区别2Yarn概述3Yarn基本架构4Yarn工作机制5作业提交全过程6资源调度器7任务的推测执行1Hadoop1.x和Hadoo ... [详细]

蜡笔小新 2023-10-15 12:16:30
stream
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
input
HDFS2.x新特性

一、集群间数据拷贝scp实现两个远程主机之间的文件复制scp-rhello.txtroothadoop103:useratguiguhello.txt推pushscp-rr ... [详细]

蜡笔小新 2023-12-13 13:52:40
input
关系型数据库和NoSQL数据库的介绍及应用场景

本文介绍了关系型数据库和NoSQL数据库的概念和特点，列举了主流的关系型数据库和NoSQL数据库，同时描述了它们在新闻、电商抢购信息和微博热点信息等场景中的应用。此外，还提供了MySQL配置文件的相关内容。 ... [详细]

蜡笔小新 2023-12-10 15:47:11
input
windows部署hadoop2.7.0

这里使用自己编译的hadoop-2.7.0版本部署在windows上，记得几年前，部署hadoop需要借助于cygwin，还需要开启ssh服务，最近发现，原来不需要借助cy ... [详细]

蜡笔小新 2023-10-17 21:04:04
char
mysql新版本5.7.17的zip包配置

1.官网下载了mysql-5.7.17-win64.zip包，配置遇到很多麻烦，记录一下；2.解压后放到指定的文件夹，修改mysql-5.7.17的配置文件my-default.i ... [详细]

蜡笔小新 2023-10-17 20:01:32
char
Hadoop与大数据技术大会将于11月30日开幕

11月26日，由中国计算机协会（CCF）主办，CCF大数据专家委员会协办，CSDN承办的Hadoop与大数据技术大会（Hadoop&BigDataTechnology ... [详细]

蜡笔小新 2023-10-17 17:47:11
input
Hadoop 源码学习笔记(4)Hdfs 数据读写流程分析

Hdfs的数据模型在对读写流程进行分析之前，我们需要先对Hdfs的数据模型有一个简单的认知。数据模型如上图所示，在NameNode中有一个唯一的FSDirectory类负责维护文件 ... [详细]

蜡笔小新 2023-10-17 11:27:29
input
hadoop学习；block数据块；mapreduce实现样例；UnsupportedClassVersionError异常；关联项目源代码...

对于开源的东东，尤其是刚出来不久，我认为最好的学习方式就是能够看源代码和doc，測试它的样例为了方便查看源代码，关联导入源代 ... [详细]

蜡笔小新 2023-10-17 09:49:38
input
如何在mysql shell命令中执行sql命令行

如何在mysqlshell命令中执行sql命令行本文介绍MySQL8.0shell子模块Util的两个导入特性importTableimport_table(JS和python版本 ... [详细]

蜡笔小新 2023-10-17 08:53:00
config
Hadoop学习笔记1：伪分布式环境搭建

在搭建Hadoop环境之前，请先阅读如下博文，把搭建Hadoop环境之前的准备工作做好，博文如下： 1、CentOS6.7下安装JDK,地址：http:b ... [详细]

蜡笔小新 2023-10-16 16:04:04
config
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
config
iOS数据库Sqlite的SQL语句分类和常见约束关键字

本文介绍了iOS数据库Sqlite的SQL语句分类和常见约束关键字。SQL语句分为DDL、DML和DQL三种类型，其中DDL语句用于定义、删除和修改数据表，关键字包括create、drop和alter。常见约束关键字包括if not exists、if exists、primary key、autoincrement、not null和default。此外，还介绍了常见的数据库数据类型，包括integer、text和real。 ... [详细]

蜡笔小新 2023-12-12 18:42:03
usb
uniapp判断客户端环境是 Android还是iOS系统

通过uni.getSystemInfoSync()可以同步获取系统信息，其中platform是获取客户端平台的switch(uni.getSystemInfoSyn ... [详细]

蜡笔小新 2023-10-16 13:48:35
get
【编程语言之Go介绍与环境安装】

Go语言是谷歌2009发布的第二款开源编程语言。Go语言专门针对多处理器系统应用程序的编程进行了优化，使用Go编译的程序可以媲美C或C++代码的速度，而且更加安全、支持并行进程。 ... [详细]

蜡笔小新 2023-10-16 12:57:09

迪迪

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章