如何在SPARKSQL中通过Expand操作实现GroupingSets（逻辑计划层面详解）

作者：手机用户2502929183 | 来源：互联网 | 2024-10-22 16:42

背景本文基于spark3.1.2之前在做bug调试的时候遇到了expand的问题，在此记录一下分析运行该sql：createtabletest_

背景

本文基于spark 3.1.2
之前在做bug调试的时候遇到了expand的问题&＃xff0c;在此记录一下

分析

运行该sql&＃xff1a;

create table test_a_pt(col1 int, col2 int,pt string) USING parquet PARTITIONED BY (pt); insert into table test_a_pt values(1,2,&＃39;20220101&＃39;),(3,4,&＃39;20220101&＃39;),(1,2,&＃39;20220101&＃39;),(3,4,&＃39;20220101&＃39;),(1,2,&＃39;20220101&＃39;),(3,4,&＃39;20220101&＃39;); select count(*),col1 as alias from test_a_pt group by col1,col2 grouping sets (col1,col2) order by col1,col2 ;

可以看到如下逻辑计划的变化&＃xff08;只截取grouping sets相关的&＃xff09;&＃xff1a;

&＃61;&＃61;&＃61; Applying Rule org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveRelations &＃61;&＃61;&＃61;&＃39;Sort [&＃39;col1 ASC NULLS FIRST], true &＃39;Sort [&＃39;col1 ASC NULLS FIRST], true&＃43;- &＃39;GroupingSets [ArrayBuffer(&＃39;col1), ArrayBuffer(&＃39;col2)], [&＃39;col1, &＃39;col2], [&＃39;col1, &＃39;count(1) AS alias#221] &＃43;- &＃39;GroupingSets [ArrayBuffer(&＃39;col1), ArrayBuffer(&＃39;col2)], [&＃39;col1, &＃39;col2], [&＃39;col1, &＃39;count(1) AS alias#221] ! &＃43;- &＃39;UnresolvedRelation [test_table], [], false &＃43;- &＃39;SubqueryAlias spark_catalog.default.test_table ! &＃43;- &＃39;UnresolvedCatalogRelation &＃96;default&＃96;.&＃96;test_table&＃96;, [], false

对于GroupingSets里面的信息做一下解释&＃xff1a;

&＃39;GroupingSets [ArrayBuffer(&＃39;col1), ArrayBuffer(&＃39;col2)], [&＃39;col1, &＃39;col2], [&＃39;col1, &＃39;count(1) AS alias#221]

*&＃96;*表示还未解析的计划&＃xff0c;
[ArrayBuffer(&＃39;col1), ArrayBuffer(&＃39;col2)] 是grouping sets里面的两个值col1和col2
[&＃39;col1, &＃39;col2] 是group by后面的值col1和col2
[&＃39;col1, &＃39;count(1) AS alias#221] 是聚合表达式的值&＃xff0c;也就是select后面的值 count(*),col1 as alias

接下来就是&＃xff1a;
ResolveGroupingAnalytics计划&＃xff1a;

06:49:07.323 WARN org.apache.spark.sql.catalyst.rules.PlanChangeLogger: &＃61;&＃61;&＃61; Applying Rule org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveGroupingAnalytics &＃61;&＃61;&＃61;&＃39;Sort [&＃39;col1 ASC NULLS FIRST], true &＃39;Sort [&＃39;col1 ASC NULLS FIRST], true !&＃43;- &＃39;GroupingSets [ArrayBuffer(col1#223), ArrayBuffer(col2#224)], [col1#223, col2#224], [col1#223, count(1) AS alias#221L] &＃43;- Aggregate [col1#229, col2#230, spark_grouping_id#228L], [col1#229, count(1) AS alias#221L] ! &＃43;- SubqueryAlias spark_catalog.default.test_table &＃43;- Expand [List(col1#223, col2#224, pt#225, col1#226, null, 1), List(col1#223, col2#224, pt#225, null, col2#227, 2)], [col1#223, col2#224, pt#225, col1#229, col2#230, spark_grouping_id#228L] ! &＃43;- Relation[col1#223,col2#224,pt#225] parquet &＃43;- Project [col1#223, col2#224, pt#225, col1#223 AS col1#226, col2#224 AS col2#227] ! &＃43;- SubqueryAlias spark_catalog.default.test_table ! &＃43;- Relation[col1#223,col2#224,pt#225] parquet

代码自己可以去看&＃xff0c;我们从逻辑来上分析&＃xff1a;

&＃39;GroupingSets [ArrayBuffer(col1#223), ArrayBuffer(col2#224)], [col1#223, col2#224], [col1#223, count(1) AS alias#221L] ||\/&＃43;- Aggregate [col1#229, col2#230, spark_grouping_id#228L], [col1#229, count(1) AS alias#221L] &＃43;- Expand [List(col1#223, col2#224, pt#225, col1#226, null, 1), List(col1#223, col2#224, pt#225, null, col2#227, 2)], [col1#223, col2#224, pt#225, col1#229, col2#230, spark_grouping_id#228L]&＃43;- Project [col1#223, col2#224, pt#225, col1#223 AS col1#226, col2#224 AS col2#227]

把最重要的转换提取出来做解释&＃xff1a;

&＃43;- Project [col1#223, col2#224, pt#225, col1#223 AS col1#226, col2#224 AS col2#227]

前三个expression col1#223, col2#224, pt#225 是根据 Relation(也就是从表test_a_pt直接获取到的&＃xff0c;和表的字段保持一致)
后面的expression col1#223 AS col1#226, col2#224 AS col2#227 是根据grouping sets和group by的值整合过来的(并且会加上别名&＃xff0c;取别名是为了Expand用的)&＃xff0c;如果没有group by 这个表达式才会取grouping sets的值&＃xff0c;否则就取group by后面的值(目前spark 3.1.2的做法是group by的属性肯定包含了grouping sets里面的属性,SPARK-33229可以支持)&＃xff1a;

如&＃xff1a;group by col1,col2 grouping sets (col1,col2) 则取 col1,col2 如&＃xff1a;grouping sets (col1,col2) 则取 col1,col2

对于Expand:

Expand [List(col1#223, col2#224, pt#225, col1#226, null, 1), List(col1#223, col2#224, pt#225, null, col2#227, 2)], [col1#223, col2#224, pt#225, col1#229, col2#230, spark_grouping_id#228L]

List(col1#223, col2#224, pt#225, col1#226, null, 1), List(col1#223, col2#224, pt#225, null, col2#227, 2) 这些是expand的输入expression&＃xff0c;其中

List(col1#223, col2#224, pt#225, col1#226, null, 1) 中的
col1#223, col2#224, pt#225 也是从表test_a_pt直接获取到的字段&＃xff0c;和表的字段保持一致
col1#226 是从 Project的col1#223 AS col1#226取到的&＃xff08;作为Expand的输入表达式&＃xff09;&＃xff0c;
null 根据grouping sets的特性而增加的一行值&＃xff08;作为Expand的输入表达式&＃xff09;
1 也是增加的一行值&＃xff08;作为Expand的输入表达式&＃xff09;
List(col1#223, col2#224, pt#225, null, col2#227, 2) 解释也和上面一样&＃xff0c;只不过null的位置发生了变化&＃xff0c;而1变成了2&＃xff0c;这是为了做聚合的时候进行区分

[col1#223, col2#224, pt#225, col1#229, col2#230, spark_grouping_id#228L] 这些是expand的输出expression&＃xff0c;其中

col1#223, col2#224, pt#225 和表test_a_pt的字段值一样
col1#229, col2#230, spark_grouping_id#228L 是expand做的的扩展字段&＃xff0c;
因为col1和col2的值可能为null&＃xff0c;所以exprId和表test_a_pt不一致&＃xff0c;
spark_grouping_id#228L 纯属于虚拟字段

而且expand的输入字段是一个Seq(Seq)&＃xff0c;这在ExpandExec的时候&＃xff0c;会进行row的倍数扩大&＃xff0c;Seq里的元素有几个&＃xff0c;就会扩展多少倍。

对于Aggregate

Aggregate [col1#229, col2#230, spark_grouping_id#228L], [col1#229, count(1) AS alias#221L]

其中&＃xff0c;

[col1#229, col2#230, spark_grouping_id#228L]就是把Expand的输出字段&＃xff0c;按照这三个表达式进行group by 聚合
[col1#229, count(1) AS alias#221L] 是聚合表达式&＃xff0c;包括聚合的部分字段和部分聚合函数&＃xff0c;也就是select语句count(*),col1 as alias

至此Grouping sets 转Expand就分析完了。

推荐阅读

buffer
MyBatis 动态 SQL 详解与应用

本文深入探讨 MyBatis 中动态 SQL 的使用方法，包括 if/where、trim 自定义字符串截取规则、choose 分支选择、封装查询和修改条件的 where/set 标签、批量处理的 foreach 标签以及内置参数和 bind 的用法。 ... [详细]

蜡笔小新 2024-12-27 16:20:10
java
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09
java
Apache Jena 中 Txn.executeWrite 方法详解与代码示例

本文详细介绍了 Apache Jena 库中的 Txn.executeWrite 方法，通过多个实际代码示例展示了其在不同场景下的应用，帮助开发者更好地理解和使用该方法。 ... [详细]

蜡笔小新 2024-12-26 17:55:52
schema
PostgreSQL中的模式管理

本文由瀚高PG实验室撰写，详细介绍了如何在PostgreSQL中创建、管理和删除模式。文章涵盖了创建模式的基本命令、public模式的特性、权限设置以及通过角色对象简化操作的方法。 ... [详细]

蜡笔小新 2024-12-26 11:37:26
java
深入理解org.neo4j.helpers.collection.Iterators.single()方法及其应用

本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例，帮助开发者更好地理解和应用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:51:55
java
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新 2024-12-28 08:54:34
php
深入理解 SQL 视图、存储过程与事务

本文详细介绍了SQL中的视图、存储过程和事务的概念及应用。视图为用户提供了一种灵活的数据查询方式，存储过程则封装了复杂的SQL逻辑，而事务确保了数据库操作的完整性和一致性。 ... [详细]

蜡笔小新 2024-12-27 17:40:42
php
如何通过按钮聚焦ListView的TextCell？ - How to focus ListView's TextCell by button?

IneedtofocusTextCellsonebyoneviaabuttonclick.ItriedlistView.ScrollTo.我需要通过点击按钮逐个关注Tex ... [详细]

蜡笔小新 2024-12-27 17:02:23
split
解析Java中Text.splitText()方法及其应用场景

本文详细介绍了Java中org.w3c.dom.Text类的splitText()方法，通过多个代码示例展示了其实际应用。该方法用于将文本节点在指定位置拆分为两个节点，并保持在文档树中。 ... [详细]

蜡笔小新 2024-12-26 18:31:42
version
使用 SQLiteJDBC 和 HikariCP 实现 Java 程序连接 SQLite 数据库

本文介绍了如何通过 Maven 依赖引入 SQLiteJDBC 和 HikariCP 包，从而在 Java 应用中高效地连接和操作 SQLite 数据库。文章提供了详细的代码示例，并解释了每个步骤的实现细节。 ... [详细]

蜡笔小新 2024-12-26 17:34:42
version
SQL 触发器实现视图插入操作

本文介绍如何通过创建替代插入触发器，使对视图的插入操作能够正确更新相关的基本表。涉及的表包括：飞机（Aircraft）、员工（Employee）和认证（Certification）。 ... [详细]

蜡笔小新 2024-12-26 15:53:40
const
VxWorks中的双向链表与环形缓冲应用

本文详细探讨了VxWorks操作系统中双向链表和环形缓冲区的实现原理及使用方法，通过具体示例代码加深理解。 ... [详细]

蜡笔小新 2024-12-26 13:26:16
php
MySQL LAST_INSERT_ID() 函数深入解析

本文详细介绍了 MySQL 中 LAST_INSERT_ID() 函数的使用方法及其工作原理，包括如何获取最后一个插入记录的自增 ID、多行插入时的行为以及在不同客户端环境下的表现。 ... [详细]

蜡笔小新 2024-12-25 22:04:04
split
深入解析JDBC源码

本文详细探讨了JDBC（Java数据库连接）的内部机制，重点分析其作为服务提供者接口（SPI）框架的应用。通过类图和代码示例，展示了JDBC如何注册驱动程序、建立数据库连接以及执行SQL查询的过程。 ... [详细]

蜡笔小新 2024-12-25 19:59:15
const
MySQL索引详解与优化

本文深入探讨了MySQL中的索引机制，包括索引的基本概念、优势与劣势、分类及其实现原理，并详细介绍了索引的使用场景和优化技巧。通过具体示例，帮助读者更好地理解和应用索引以提升数据库性能。 ... [详细]

蜡笔小新 2024-12-25 19:52:47

手机用户2502929183

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章