ApacheSpark3.0中的SQL性能改进概览

作者：dsvd2010 | 来源：互联网 | 2023-07-10 11:50

阿里巴巴高级技术专家李呈祥为大家带来ApacheSpark3.0中的SQL性能改进概览的介绍。以下由Spark+AISummit中文精华版峰会的精彩内容整理。原视频链接：https

阿里巴巴高级技术专家李呈祥为大家带来Apache Spark 3.0中的SQL性能改进概览的介绍。以下由Spark+AI Summit中文精华版峰会的精彩内容整理。

原视频链接：https://developer.aliyun.com/live/43188

活动链接：SPARK中文峰会7月4日（二）｜Ray On Spark

今天主要跟大家分享一下spark 3.0在SQL方向上的一些优化工作。从spark 2.4开始，大概有超过一年半的时间。对于一个比较活跃的开源项目来说，这个时间是非常长的。所以里面包含了大量的这种功能增强，性能优化，等各方面的新的feature在里面。大概超过50%的相关的issue都是和SQL相关的。在SQL这个方向上主要做的工作，大概分成四个方面。第一方面是工具类的。就是说基于spark的一个开发者怎么去和spark交互，提供一些更多的工具。第二个是dynamic optimization。简单来说就是运行时的优化。在这里面，包含了几个重大的性能改进。第三个是在spark的catalyst优化器方面有很多新的改进。第四个是基础依赖的更新。主要在语言层面引入了一些新的支持和依赖。

Apache Spark 3.0中的SQL性能改进概览

Spark 3.0是一个时间跨度非常长的release，包含了非常多的社区的工作。统计下来有接近3400多个issue在spark 3.0里面进行了处理。针对这么多的issue，我们用spark 3.0的时候，需要考虑有哪些东西对于实际的生产环境可能有好处，有哪些新的特性。

Apache Spark 3.0中的SQL性能改进概览

总结下来，大概可以把在SQL方向上的这种大的改动分成七个部分，分属于上文中提到的四个类别。

Apache Spark 3.0中的SQL性能改进概览

第一部分是new explain format。当我们想去改进，去优化一个spark SQL的性能的时候，首先需要去了解SQL的查询计划大概是一个什么样子，有针对性的去进行这种SQL的重写，或其他的一些改进。前提就是我的查询计划可读性比较强，是非常容易去看的。

Apache Spark 3.0中的SQL性能改进概览

对于之前2.4的版本，可以通过explain SQL去展示。只不过是这种展示的方式看起来繁杂一点。我们可以看到针对于SQL，这么一个物理查询计划，是一个树状的结构。也是可以去看的，但是可读性相对来说不够好。

Apache Spark 3.0中的SQL性能改进概览

在3.0里面，针对查询计划的这种展示进行了一定的优化，以简要的格式展示。根据节点的编号，可以找到对应的更详细的信息。而且对于每一个节点展示的信息也做了一些归类和整理，整理成input，output，condition等。通过这种方式，用户可以更加清晰的看到整个的查询计划。

Apache Spark 3.0中的SQL性能改进概览

第二部分是all type of join hints。在spark 2.4只支持broadcast。而spark 3.0除了支持broadcast，还支持sort merge，shuffle hash和cartesian。

Apache Spark 3.0中的SQL性能改进概览

第三部分是adaptive query execution。社区为什么要去做它，最主要的原因就是说，对于一些查询计划，在运行时能够拿到更准确的数据统计信息，可以选择最优的这种计划，对数据进行处理，从而提升spark处理数据的性能。主要包括三种场景。第一种是调整reducer的数量，从而避免额外的内存和IO的开销。第二种是说，选择最合适的join的策略。第三种是说，针对倾斜数据，在join的时候提供更好的处理方式。上述场景都是自动的，根据运行时的情况，自动地收集相关的信息，然后去做判断。

Apache Spark 3.0中的SQL性能改进概览

怎么去动态的调整reducer的数量。在spark 2.4，默认指定partition数量，每一个partition经过shuffle之后，对应的要处理的数据的大小可能是不一样的。这是由数据本身的特性来决定的，它的分布可能本来就是不均衡的。

Apache Spark 3.0中的SQL性能改进概览

在spark 3.0中，在shuffle的时候，每一个partition有不同的数据量大小，需要把小的partition数据进行合并，给同一个reducer去处理，从而使得每一个reducer它所处理的数据量大小是相近的。

Apache Spark 3.0中的SQL性能改进概览

针对有数据倾斜的这种join，在spark 2.4中带来的主要的问题就是说，在处理最大的partition时，要花费很长的时间，影响整个join。

Apache Spark 3.0中的SQL性能改进概览

在spark 3.0中，有数据倾斜的join，比在spark 2.4中更快。如图所示，对于表A和表B，我把大表的数据做切分，小表的数据做全量的分发。第一个，满足join的语义要求。第二个，在倾斜的这些key上面，它是被切成多分，然后在多个task里面去处理。

Apache Spark 3.0中的SQL性能改进概览

第四部分是dynamic partitioning pruning。在join操作中，要避免读取不必要的partition。而dynamic filter能够避免读取不必要的partition。

Apache Spark 3.0中的SQL性能改进概览

如下图所示，在spark 2.4中，大表中的所有数据都被读取。

Apache Spark 3.0中的SQL性能改进概览

而在spark 3.0中，通过pushdown with dynamic filter，能够减少大表中需要被读取的数据量。

Apache Spark 3.0中的SQL性能改进概览

如下图所示，是一个dynamic partitioning pruning的例子。

Apache Spark 3.0中的SQL性能改进概览

第五部分是Enhanced nested column pruning & pushdown，是针对于这种嵌套的数据结构的支持。在spark 2.4里面，其实已经提供了部分的这种支持。如下图所示的表里面，有column 1和column 2，而后者是一个嵌套的数据结构，它里面有两个字段。比如说，我查询的时候只查了column 2里面的第1个字段。去访问这个数据的时候，我只需要把column 2的第1个字段拿出来就行了，而不需要把整个column 2都拿出来。但是在spark 2.4里面它的支持是有限的。就是说，只能穿透有限的几个算子，比如说LIMIT这种算子，对于其他的一些算子是没办法的。

Apache Spark 3.0中的SQL性能改进概览

而在spark 3.0里面，对这一块进行了进一步的优化，能够支持把column pruning推到穿透所有的算子。

Apache Spark 3.0中的SQL性能改进概览

另外一种场景，就是说filter过滤的条件是根据嵌套字段里面的某一个子字段去做过滤，是不是支持把过滤条件也推到table scan里面。在spark 2.4里面也是不能够完全支持的。

Apache Spark 3.0中的SQL性能改进概览

而在spark 3.0里面，针对嵌套字段的filter，也是一直可以往下推到具体访问数据的table scan里面。

Apache Spark 3.0中的SQL性能改进概览

第六部分是Improved aggregation code generation，针对aggregation扩件的一个优化。

Apache Spark 3.0中的SQL性能改进概览

就是说，在spark里面我们去支持这种扩件，但是扩件会有一个限制。针对每个方法，如果大于8000 Java bytecode，HotSpot编译器就rollback，放弃生成native code。所以，如果你的这种SQL比较复杂，可能会没办法利用到扩件的这种特性。

Apache Spark 3.0中的SQL性能改进概览

在spark 3.0里面，针对这种情况做一些优化。简单来说，把一个方法拆分成多个方法，从而避免碰到8000 Java bytecode的限制。

Apache Spark 3.0中的SQL性能改进概览

具体的例子如下图所示。

Apache Spark 3.0中的SQL性能改进概览

第七部分是New Scala and Java，针对新的语言版本的支持。支持了新的Java 11这个版本，以及Scala 2.12版本。

Apache Spark 3.0中的SQL性能改进概览

关键词：Spark 3.0，SQL性能改进，Interactions with developers，Dynamic optimizations，Catalyst improvements，Infrastructure updates

Apache Spark 3.0中的SQL性能改进概览

获取更多 Spark+AI SUMMIT 精彩演讲视频回放和ppt，请向本公众号后台发送"0704中文峰会"

阿里巴巴开源大数据技术团队成立Apache Spark中国技术社区，定期推送精彩案例，技术专家直播，问答区近万人Spark技术同学在线提问答疑，只为营造纯粹的Spark氛围，欢迎钉钉扫码加入！

Apache Spark 3.0中的SQL性能改进概览

对开源大数据和感兴趣的同学可以加小编微信（下图二维码，备注“进群”）进入技术交流微信群。

Apache Spark 3.0中的SQL性能改进概览

Apache Spark技术交流社区公众号，微信扫一扫关注

Apache Spark 3.0中的SQL性能改进概览

推荐阅读

sum
也就是|小窗_卷积的特征提取与参数计算

篇首语：本文由编程笔记#小编为大家整理，主要介绍了卷积的特征提取与参数计算相关的知识，希望对你有一定的参考价值。Dense和Conv2D根本区别在于，Den ... [详细]

蜡笔小新 2023-12-13 12:59:48
sum
Oracle分析函数first_value()和last_value()的用法及原理

本文介绍了Oracle分析函数first_value()和last_value()的用法和原理，以及在查询销售记录日期和部门中的应用。通过示例和解释，详细说明了first_value()和last_value()的功能和不同之处。同时，对于last_value()的结果出现不一样的情况进行了解释，并提供了理解last_value()默认统计范围的方法。该文对于使用Oracle分析函数的开发人员和数据库管理员具有参考价值。 ... [详细]

蜡笔小新 2023-12-13 19:07:23
sum
2020年第十一届蓝桥杯决赛JAVA B G题“皮亚诺曲线距离“的个人题解目录

本文是2020年第十一届蓝桥杯决赛JAVA B G题“皮亚诺曲线距离“的个人题解目录。文章介绍了皮亚诺曲线的概念和特点，并提供了计算皮亚诺曲线上两点距离的方法。通过给定的两个点的坐标，可以计算出它们之间沿着皮亚诺曲线走的最短距离。本文还提供了个人题解的目录，供读者参考。 ... [详细]

蜡笔小新 2023-12-13 13:20:43
js
hdu4888 Redraw Beautiful Drawings

本文介绍了一道网络流题目hdu4888 Redraw Beautiful Drawings的解题思路。题目要求以行和列作为结点建图，并通过最大流算法判断是否有解以及是否唯一。文章详细介绍了建图和算法的过程，并强调在dfs过程中要进行回溯。 ... [详细]

蜡笔小新 2023-12-12 11:54:35
get
NotSupportedException无法将类型“System.DateTime”强制转换为类型“System.Object”

本文介绍了在使用LINQ to Entities时出现的NotSupportedException异常，该异常是由于无法将类型“System.DateTime”强制转换为类型“System.Object”所导致的。同时还介绍了相关的错误信息和解决方法。 ... [详细]

蜡笔小新 2023-12-11 13:41:31
get
linux进阶50——无锁CAS

1.概念比较并交换(compareandswap，CAS)，是原⼦操作的⼀种，可⽤于在多线程编程中实现不被打断的数据交换操作࿰ ... [详细]

蜡笔小新 2023-12-09 10:10:40
get
gym102222KVertex Covers（高维前缀和，meet in the middle）相关的知识介绍及解题思路

本文主要介绍了gym102222KVertex Covers（高维前缀和，meet in the middle）相关的知识，包括题意、思路和解题代码。题目给定一张n点m边的图，点带点权，定义点覆盖的权值为点权之积，要求所有点覆盖的权值之和膜qn小于等于36。文章详细介绍了解题思路，通过将图分成两个点数接近的点集L和R，并分别枚举子集S和T，判断S和T能否覆盖所有内部的边。文章还提到了使用位运算加速判断覆盖和推导T'的方法。最后给出了解题的代码。 ... [详细]

蜡笔小新 2023-12-09 10:03:53
sum
Python 教学 016

Python教学练习二Python1-12练习二一、判断季节用户输入月份，判断这个月是哪个季节？3，4，5月----春 ... [详细]

蜡笔小新 2023-12-09 08:28:13
sum
Monkey《大话移动——Android与iOS应用测试指南》的预购信息发布啦！

Monkey《大话移动——Android与iOS应用测试指南》的预购信息已经发布，可以在京东和当当网进行预购。感谢几位大牛给出的书评，并呼吁大家的支持。明天京东的链接也将发布。 ... [详细]

蜡笔小新 2023-12-14 18:57:09
get
SQL日志收缩及截断方法详解

本文详细介绍了SQL日志收缩的方法，包括截断日志和删除不需要的旧日志记录。通过备份日志和使用DBCC SHRINKFILE命令可以实现日志的收缩。同时，还介绍了截断日志的原理和注意事项，包括不能截断事务日志的活动部分和MinLSN的确定方法。通过本文的方法，可以有效减小逻辑日志的大小，提高数据库的性能。 ... [详细]

蜡笔小新 2023-12-14 18:23:25
js
lua语言闭包、模式匹配、日期、编译、模块的特性及应用

本文介绍了lua语言中闭包的特性及其在模式匹配、日期处理、编译和模块化等方面的应用。lua中的闭包是严格遵循词法定界的第一类值，函数可以作为变量自由传递，也可以作为参数传递给其他函数。这些特性使得lua语言具有极大的灵活性，为程序开发带来了便利。 ... [详细]

蜡笔小新 2023-12-14 18:18:21
js
Python高级之网络编程及TCP/IP协议簇的OSI七层模型介绍

本文介绍了Python高级网络编程及TCP/IP协议簇的OSI七层模型。首先简单介绍了七层模型的各层及其封装解封装过程。然后讨论了程序开发中涉及到的网络通信内容，主要包括TCP协议、UDP协议和IPV4协议。最后还介绍了socket编程、聊天socket实现、远程执行命令、上传文件、socketserver及其源码分析等相关内容。 ... [详细]

蜡笔小新 2023-12-14 18:16:27
js
JDK核心源码(2)中lang包下的基础知识总结和分析

本文总结和分析了JDK核心源码(2)中lang包下的基础知识，包括常用的对象类型包和异常类型包。在对象类型包中，介绍了Object类、String类、StringBuilder类、StringBuffer类和基本元素的包装类。在异常类型包中，介绍了Throwable类、Error类型和Exception类型。这些基础知识对于理解和使用JDK核心源码具有重要意义。 ... [详细]

蜡笔小新 2023-12-09 20:16:01
js
深入理解Java虚拟机的并发编程与性能优化

本文主要介绍了Java内存模型与线程的相关概念，探讨了并发编程在服务端应用中的重要性。同时，介绍了Java语言和虚拟机提供的工具，帮助开发人员处理并发方面的问题，提高程序的并发能力和性能优化。文章指出，充分利用计算机处理器的能力和协调线程之间的并发操作是提高服务端程序性能的关键。 ... [详细]

蜡笔小新 2023-12-09 19:52:01
js
x86 linux的进程调度,x86体系结构下Linux2.6.26的进程调度和切换

进程调度相关数据结构task_structtask_struct是进程在内核中对应的数据结构，它标识了进程的状态等各项信息。其中有一项thread_struct结构的 ... [详细]

蜡笔小新 2023-10-17 18:41:38

dsvd2010

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章