如何在SPARKSQL中通过Expand操作实现GroupingSets（逻辑计划层面详解）

作者：手机用户2502929183 | 来源：互联网 | 2024-10-22 16:42

背景本文基于spark3.1.2之前在做bug调试的时候遇到了expand的问题，在此记录一下分析运行该sql：createtabletest_

背景

本文基于spark 3.1.2
之前在做bug调试的时候遇到了expand的问题&＃xff0c;在此记录一下

分析

运行该sql&＃xff1a;

create table test_a_pt(col1 int, col2 int,pt string) USING parquet PARTITIONED BY (pt); insert into table test_a_pt values(1,2,&＃39;20220101&＃39;),(3,4,&＃39;20220101&＃39;),(1,2,&＃39;20220101&＃39;),(3,4,&＃39;20220101&＃39;),(1,2,&＃39;20220101&＃39;),(3,4,&＃39;20220101&＃39;); select count(*),col1 as alias from test_a_pt group by col1,col2 grouping sets (col1,col2) order by col1,col2 ;

可以看到如下逻辑计划的变化&＃xff08;只截取grouping sets相关的&＃xff09;&＃xff1a;

&＃61;&＃61;&＃61; Applying Rule org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveRelations &＃61;&＃61;&＃61;&＃39;Sort [&＃39;col1 ASC NULLS FIRST], true &＃39;Sort [&＃39;col1 ASC NULLS FIRST], true&＃43;- &＃39;GroupingSets [ArrayBuffer(&＃39;col1), ArrayBuffer(&＃39;col2)], [&＃39;col1, &＃39;col2], [&＃39;col1, &＃39;count(1) AS alias#221] &＃43;- &＃39;GroupingSets [ArrayBuffer(&＃39;col1), ArrayBuffer(&＃39;col2)], [&＃39;col1, &＃39;col2], [&＃39;col1, &＃39;count(1) AS alias#221] ! &＃43;- &＃39;UnresolvedRelation [test_table], [], false &＃43;- &＃39;SubqueryAlias spark_catalog.default.test_table ! &＃43;- &＃39;UnresolvedCatalogRelation &＃96;default&＃96;.&＃96;test_table&＃96;, [], false

对于GroupingSets里面的信息做一下解释&＃xff1a;

&＃39;GroupingSets [ArrayBuffer(&＃39;col1), ArrayBuffer(&＃39;col2)], [&＃39;col1, &＃39;col2], [&＃39;col1, &＃39;count(1) AS alias#221]

*&＃96;*表示还未解析的计划&＃xff0c;
[ArrayBuffer(&＃39;col1), ArrayBuffer(&＃39;col2)] 是grouping sets里面的两个值col1和col2
[&＃39;col1, &＃39;col2] 是group by后面的值col1和col2
[&＃39;col1, &＃39;count(1) AS alias#221] 是聚合表达式的值&＃xff0c;也就是select后面的值 count(*),col1 as alias

接下来就是&＃xff1a;
ResolveGroupingAnalytics计划&＃xff1a;

06:49:07.323 WARN org.apache.spark.sql.catalyst.rules.PlanChangeLogger: &＃61;&＃61;&＃61; Applying Rule org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveGroupingAnalytics &＃61;&＃61;&＃61;&＃39;Sort [&＃39;col1 ASC NULLS FIRST], true &＃39;Sort [&＃39;col1 ASC NULLS FIRST], true !&＃43;- &＃39;GroupingSets [ArrayBuffer(col1#223), ArrayBuffer(col2#224)], [col1#223, col2#224], [col1#223, count(1) AS alias#221L] &＃43;- Aggregate [col1#229, col2#230, spark_grouping_id#228L], [col1#229, count(1) AS alias#221L] ! &＃43;- SubqueryAlias spark_catalog.default.test_table &＃43;- Expand [List(col1#223, col2#224, pt#225, col1#226, null, 1), List(col1#223, col2#224, pt#225, null, col2#227, 2)], [col1#223, col2#224, pt#225, col1#229, col2#230, spark_grouping_id#228L] ! &＃43;- Relation[col1#223,col2#224,pt#225] parquet &＃43;- Project [col1#223, col2#224, pt#225, col1#223 AS col1#226, col2#224 AS col2#227] ! &＃43;- SubqueryAlias spark_catalog.default.test_table ! &＃43;- Relation[col1#223,col2#224,pt#225] parquet

代码自己可以去看&＃xff0c;我们从逻辑来上分析&＃xff1a;

&＃39;GroupingSets [ArrayBuffer(col1#223), ArrayBuffer(col2#224)], [col1#223, col2#224], [col1#223, count(1) AS alias#221L] ||\/&＃43;- Aggregate [col1#229, col2#230, spark_grouping_id#228L], [col1#229, count(1) AS alias#221L] &＃43;- Expand [List(col1#223, col2#224, pt#225, col1#226, null, 1), List(col1#223, col2#224, pt#225, null, col2#227, 2)], [col1#223, col2#224, pt#225, col1#229, col2#230, spark_grouping_id#228L]&＃43;- Project [col1#223, col2#224, pt#225, col1#223 AS col1#226, col2#224 AS col2#227]

把最重要的转换提取出来做解释&＃xff1a;

&＃43;- Project [col1#223, col2#224, pt#225, col1#223 AS col1#226, col2#224 AS col2#227]

前三个expression col1#223, col2#224, pt#225 是根据 Relation(也就是从表test_a_pt直接获取到的&＃xff0c;和表的字段保持一致)
后面的expression col1#223 AS col1#226, col2#224 AS col2#227 是根据grouping sets和group by的值整合过来的(并且会加上别名&＃xff0c;取别名是为了Expand用的)&＃xff0c;如果没有group by 这个表达式才会取grouping sets的值&＃xff0c;否则就取group by后面的值(目前spark 3.1.2的做法是group by的属性肯定包含了grouping sets里面的属性,SPARK-33229可以支持)&＃xff1a;

如&＃xff1a;group by col1,col2 grouping sets (col1,col2) 则取 col1,col2 如&＃xff1a;grouping sets (col1,col2) 则取 col1,col2

对于Expand:

Expand [List(col1#223, col2#224, pt#225, col1#226, null, 1), List(col1#223, col2#224, pt#225, null, col2#227, 2)], [col1#223, col2#224, pt#225, col1#229, col2#230, spark_grouping_id#228L]

List(col1#223, col2#224, pt#225, col1#226, null, 1), List(col1#223, col2#224, pt#225, null, col2#227, 2) 这些是expand的输入expression&＃xff0c;其中

List(col1#223, col2#224, pt#225, col1#226, null, 1) 中的
col1#223, col2#224, pt#225 也是从表test_a_pt直接获取到的字段&＃xff0c;和表的字段保持一致
col1#226 是从 Project的col1#223 AS col1#226取到的&＃xff08;作为Expand的输入表达式&＃xff09;&＃xff0c;
null 根据grouping sets的特性而增加的一行值&＃xff08;作为Expand的输入表达式&＃xff09;
1 也是增加的一行值&＃xff08;作为Expand的输入表达式&＃xff09;
List(col1#223, col2#224, pt#225, null, col2#227, 2) 解释也和上面一样&＃xff0c;只不过null的位置发生了变化&＃xff0c;而1变成了2&＃xff0c;这是为了做聚合的时候进行区分

[col1#223, col2#224, pt#225, col1#229, col2#230, spark_grouping_id#228L] 这些是expand的输出expression&＃xff0c;其中

col1#223, col2#224, pt#225 和表test_a_pt的字段值一样
col1#229, col2#230, spark_grouping_id#228L 是expand做的的扩展字段&＃xff0c;
因为col1和col2的值可能为null&＃xff0c;所以exprId和表test_a_pt不一致&＃xff0c;
spark_grouping_id#228L 纯属于虚拟字段

而且expand的输入字段是一个Seq(Seq)&＃xff0c;这在ExpandExec的时候&＃xff0c;会进行row的倍数扩大&＃xff0c;Seq里的元素有几个&＃xff0c;就会扩展多少倍。

对于Aggregate

Aggregate [col1#229, col2#230, spark_grouping_id#228L], [col1#229, count(1) AS alias#221L]

其中&＃xff0c;

[col1#229, col2#230, spark_grouping_id#228L]就是把Expand的输出字段&＃xff0c;按照这三个表达式进行group by 聚合
[col1#229, count(1) AS alias#221L] 是聚合表达式&＃xff0c;包括聚合的部分字段和部分聚合函数&＃xff0c;也就是select语句count(*),col1 as alias

至此Grouping sets 转Expand就分析完了。

推荐阅读

int
必须为元素类型 mapper 声明属性 namespace解决

在使用mybatis进行mapper.xml测试的时候发生必须为元素类型“mapper”声明属性“namespace”的错误项目目录结构UserMapper和UserMappe ... [详细]

蜡笔小新 2024-11-23 20:06:58
int
Java中List的forEach方法与字符串拼接的兼容性问题

本文深入探讨了在Java中使用List的forEach方法时遇到的字符串拼接问题，提供了有效的解决方案及背后的原理分析，旨在帮助开发者更好地理解和解决此类问题。 ... [详细]

蜡笔小新 2024-11-24 14:42:42
match
Spring Security基础配置详解

本文详细介绍了Spring Security的基础配置方法，包括如何搭建Maven多模块工程以及具体的安全配置步骤，帮助开发者更好地理解和应用这一强大的安全框架。 ... [详细]

蜡笔小新 2024-11-22 20:52:07
jar
Maven + Spring + MyBatis + MySQL 环境搭建与实例解析

本文详细介绍如何使用MySQL数据库进行环境搭建，包括创建数据库表并插入示例数据。随后，逐步指导如何配置Maven项目，整合Spring框架与MyBatis，实现高效的数据访问。 ... [详细]

蜡笔小新 2024-11-21 18:39:23
int
如何使用 org.apache.tinkerpop.gremlin.structure.VertexProperty 的 key 方法

本文详细介绍了 `org.apache.tinkerpop.gremlin.structure.VertexProperty` 类中的 `key()` 方法，并提供了多个实际应用的代码示例。通过这些示例，读者可以更好地理解该方法在图数据库操作中的具体用途。 ... [详细]

蜡笔小新 2024-11-21 17:38:10
int
深入解析Android联系人数据库设计：AbstractContactsProvider

本文探讨了Android系统中联系人数据库的设计，特别是AbstractContactsProvider类的作用与实现。文章提供了对源代码的详细分析，并解释了该类如何支持跨数据库操作及事务处理。源代码可从官方Android网站下载。 ... [详细]

蜡笔小新 2024-11-24 18:04:54
int
MyBatis中SQL查询参数传递方法详解

本文详细介绍了在MyBatis框架中如何通过#和$两种方式来传递SQL查询参数。使用#方式可以提高执行效率，而使用$则有助于在复杂SQL语句中更好地查看日志。此外，文章还探讨了不同场景下的参数传递方法，包括实体对象、基本数据类型以及混合参数的使用。 ... [详细]

蜡笔小新 2024-11-24 15:36:41
request
使用Java调用阿里云服务发送短信验证码

本文介绍如何通过Java代码调用阿里云短信服务API来实现短信验证码的发送功能，包括必要的依赖添加和关键代码示例。 ... [详细]

蜡笔小新 2024-11-24 13:19:44
int
PHP Memcached 使用详解

本文详细介绍了如何在PHP中使用Memcached进行数据缓存，包括服务器连接、数据操作、高级功能等。 ... [详细]

蜡笔小新 2024-11-24 09:51:34
int
Java连接MySQL数据库的方法及测试示例

本文详细介绍了如何安装MySQL数据库，并通过Java编程语言实现与MySQL数据库的连接，包括环境搭建、数据库创建以及简单的查询操作。 ... [详细]

蜡笔小新 2024-11-23 18:58:43
int
Java程序设计复习题

1、编写一个Java程序在屏幕上输出“你好！”。programmenameHelloworld.javapublicclassHelloworld{publicst ... [详细]

蜡笔小新 2024-11-22 20:05:03
int
Delphi XE2 之 FireMonkey 入门(19) - TFmxObject 的子类们(表)

td{border:1pxsolid#808080;}参考:和FMX相关的类(表)TFmxObjectIFreeNotification ... [详细]

蜡笔小新 2024-11-21 22:35:24
io
CentOS 中 SWAP 分区的创建与管理

本文详细介绍了在 CentOS 系统中如何创建和管理 SWAP 分区，包括临时创建交换文件、永久性增加交换空间的方法，以及如何手动释放内存缓存。 ... [详细]

蜡笔小新 2024-11-21 19:01:54
jar
二维码的实现与应用

本文介绍了二维码的基本概念、分类及其优缺点，并详细描述了如何使用Java编程语言结合第三方库（如ZXing和qrcode.jar）来实现二维码的生成与解析。 ... [详细]

蜡笔小新 2024-11-21 17:10:15
php
Windows环境下Nginx缓存优化配置指南

本文详细介绍了在Windows系统中如何配置Nginx以实现高效的缓存加速功能，包括关键的配置文件设置和示例代码。 ... [详细]

蜡笔小新 2024-11-21 16:19:57

手机用户2502929183

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章