三种join方式:对驱动表和被驱动表的重新认识

作者：紫百合1990_950 | 来源：互联网 | 2023-10-15 13:42

http:www.cnblogs.comCareySonarchive201301092853094.html今天想到一些优化的问题,对驱动表重新认识了一下.浅谈SQLServ

http://www.cnblogs.com/CareySon/archive/2013/01/09/2853094.html

今天想到一些优化的问题,对驱动表重新认识了一下.

浅谈SQL Server中的三种物理连接操作

简介

在SQL Server中&＃xff0c;我们所常见的表与表之间的Inner Join,Outer Join都会被执行引擎根据所选的列&＃xff0c;数据上是否有索引&＃xff0c;所选数据的选择性转化为Loop Join,Merge Join,Hash Join这三种物理连接中的一种。理解这三种物理连接是理解在表连接时解决性能问题的基础&＃xff0c;下面我来对这三种连接的原理&＃xff0c;适用场景进行描述。

嵌套循环连接(Nested Loop Join)

循环嵌套连接是最基本的连接,正如其名所示那样&＃xff0c;需要进行循环嵌套&＃xff0c;这种连接方式的过程可以简单的用下图展示:

图1.循环嵌套连接的第一步

图2.循环嵌套连接的第二步

由上面两个图不难看出&＃xff0c;循环嵌套连接查找内部循环表的次数等于外部循环的行数&＃xff0c;当外部循环没有更多的行时&＃xff0c;循环嵌套结束。另外&＃xff0c;还可以看出&＃xff0c;这种连接方式需要内部循环的表有序&＃xff08;也就是有索引&＃xff09;&＃xff0c;并且外部循环表的行数要小于内部循环的行数&＃xff0c;否则查询分析器就更倾向于Hash Join(会在本文后面讲到)。

通过嵌套循环连接也可以看出&＃xff0c;随着数据量的增长这种方式对性能的消耗将呈现出指数级别的增长&＃xff0c;所以数据量到一定程度时&＃xff0c;查询分析器往往就会采用这种方式。

下面我们通过例子来看一下循环嵌套连接,利用微软的AdventureWorks数据库:

图3.一个简单的嵌套循环连接

图3中ProductID是有索引的&＃xff0c;并且在循环的外部表中&＃xff08;Product表&＃xff09;符合ProductID&＃61;870的行有4688条&＃xff0c;因此&＃xff0c;对应的SalesOrderDetail表需要查找4688次。让我们在上面的查询中再考虑另外一个例子,如图4所示。

图4.额外的列带来的额外的书签查找

由图4中可以看出&＃xff0c;由于多选择了一个UnitPrice列&＃xff0c;导致了连接的索引无法覆盖所求查询&＃xff0c;必须通过书签查找来进行&＃xff0c;这也是为什么我们要养成只Select需要的列的好习惯&＃xff0c;为了解决上面的问题&＃xff0c;我们既可以用覆盖索引&＃xff0c;也可以减少所需的列来避免书签查找。另外&＃xff0c;上面符合ProductID的行仅仅只有5条&＃xff0c;所以查询分析器会选择书签查找&＃xff0c;假如我们将符合条件的行进行增大&＃xff0c;查询分析器会倾向于表扫描&＃xff08;通常来说达到表中行数的1%以上往往就会进行table scan而不是书签查找&＃xff0c;但这并不绝对&＃xff09;&＃xff0c;如图5所示。

图5.查询分析器选择了表扫描

可以看出&＃xff0c;查询分析器此时选择了表扫描来进行连接&＃xff0c;这种方式效率要低下很多&＃xff0c;因此好的覆盖索引和Select *都是需要注意的地方。另外&＃xff0c;上面情况即使涉及到表扫描&＃xff0c;依然是比较理想的情况&＃xff0c;更糟糕的情况是使用多个不等式作为连接时&＃xff0c;查询分析器即使知道每一个列的统计分布&＃xff0c;但却不知道几个条件的联合分布&＃xff0c;从而产生错误的执行计划,如图6所示。

图6.由于无法预估联合分布&＃xff0c;导致的偏差

由图6中&＃xff0c;我们可以看出&＃xff0c;估计的行数和实际的行数存在巨大的偏差&＃xff0c;从而应该使用表扫描但查询分析器选择了书签查找&＃xff0c;这种情况对性能的影响将会比表扫描更加巨大。具体大到什么程度呢&＃xff1f;我们可以通过强制表扫描和查询分析器的默认计划进行比对&＃xff0c;如图7所示。

图7.强制表扫描性能反而更好

合并连接(Merge Join)

谈到合并连接&＃xff0c;我突然想起在西雅图参加SQL Pass峰会晚上酒吧排队点酒&＃xff0c;由于我和另外一哥们站错了位置&＃xff0c;貌似我们两个在插队一样&＃xff0c;我赶紧说:I’m sorry,i thought here is end of line。对方无不幽默的说:”It’s OK,In SQL Server,We called it merge join”。

由上面的小故事不难看出&＃xff0c;Merge Join其实上就是将两个有序队列进行连接&＃xff0c;需要两端都已经有序&＃xff0c;所以不必像Loop Join那样不断的查找循环内部的表。其次&＃xff0c;Merge Join需要表连接条件中至少有一个等号查询分析器才会去选择Merge Join。

Merge Join的过程我们可以简单用下面图进行描述:

图8.Merge Join第一步

Merge Join首先从两个输入集合中各取第一行&＃xff0c;如果匹配&＃xff0c;则返回匹配行。假如两行不匹配&＃xff0c;则有较小值的输入集合&＃43;1&＃xff0c;如图9所示。

图9.更小值的输入集合向下进1

用C#代码表示Merge Join的话如代码1所示。

public class MergeJoin
{// Assume that left and right are already sortedpublic static Relation Sort(Relation left, Relation right){Relation output &＃61; new Relation();while (!left.IsPastEnd() && !right.IsPastEnd()){if (left.Key &＃61;&＃61; right.Key){output.Add(left.Key);left.Advance();right.Advance();}else if (left.Key right.Key)right.Advance();}return output;}
}

代码1.Merge Join的C#代码表示

因此&＃xff0c;通常来说Merge Join如果输入两端有序&＃xff0c;则Merge Join效率会非常高&＃xff0c;但是如果需要使用显式Sort来保证有序实现Merge Join的话&＃xff0c;那么Hash Join将会是效率更高的选择。但是也有一种例外&＃xff0c;那就是查询中存在order by,group by,distinct等可能导致查询分析器不得不进行显式排序&＃xff0c;那么对于查询分析器来说&＃xff0c;反正都已经进行显式Sort了,何不一石二鸟的直接利用Sort后的结果进行成本更小的MERGE JOIN&＃xff1f;在这种情况下&＃xff0c;Merge Join将会是更好的选择。

另外&＃xff0c;我们可以由Merge Join的原理看出&＃xff0c;当连接条件为不等式(但不包括!&＃61;)&＃xff0c;比如说> <>&＃61;等方式时&＃xff0c;Merge Join有着更好的效率。

下面我们来看一个简单的Merge Join,这个Merge Join是由聚集索引和非聚集索引来保证Merge Join的两端有序&＃xff0c;如图10所示。

图10.由聚集索引和非聚集索引保证输入两端有序

当然&＃xff0c;当Order By,Group By时查询分析器不得不用显式Sort,从而可以一箭双雕时&＃xff0c;也会选择Merge Join而不是Hash Join,如图11所示。

图11.一箭双雕的Merge Join

哈希匹配(Hash Join)

哈希匹配连接相对前面两种方式更加复杂一些&＃xff0c;但是哈希匹配对于大量数据&＃xff0c;并且无序的情况下性能均好于Merge Join和Loop Join。对于连接列没有排序的情况下(也就是没有索引)&＃xff0c;查询分析器会倾向于使用Hash Join。

哈希匹配分为两个阶段,分别为生成和探测阶段&＃xff0c;首先是生成阶段&＃xff0c;第一阶段生成阶段具体的过程可以如图12所示。

图12.哈希匹配的第一阶段

图12中&＃xff0c;将输入源中的每一个条目经过散列函数的计算都放到不同的Hash Bucket中&＃xff0c;其中Hash Function的选择和Hash Bucket的数量都是黑盒&＃xff0c;微软并没有公布具体的算法&＃xff0c;但我相信已经是非常好的算法了。另外在Hash Bucket之内的条目是无序的。通常来讲&＃xff0c;查询优化器都会使用连接两端中比较小的哪个输入集来作为第一阶段的输入源。

接下来是探测阶段&＃xff0c;对于另一个输入集合&＃xff0c;同样针对每一行进行散列函数&＃xff0c;确定其所应在的Hash Bucket,在针对这行和对应Hash Bucket中的每一行进行匹配&＃xff0c;如果匹配则返回对应的行。

通过了解哈希匹配的原理不难看出&＃xff0c;哈希匹配涉及到散列函数&＃xff0c;所以对CPU的消耗会非常高&＃xff0c;此外&＃xff0c;在Hash Bucket中的行是无序的&＃xff0c;所以输出结果也是无序的。图13是一个典型的哈希匹配&＃xff0c;其中查询分析器使用了表数据量比较小的Product表作为生成&＃xff0c;而使用数据量大的SalesOrderDetail表作为探测。

图13.一个典型的哈希匹配连接

上面的情况都是内存可以容纳下生成阶段所需的内存&＃xff0c;如果内存吃紧&＃xff0c;则还会涉及到Grace哈希匹配和递归哈希匹配&＃xff0c;这就可能会用到TempDB从而吃掉大量的IO。这里就不细说了,有兴趣的同学可以移步:http://msdn.microsoft.com/zh-cn/library/aa178403(v&＃61;SQL.80).aspx。

总结

下面我们通过一个表格简单总结这几种连接方式的消耗和使用场景:

	嵌套循环连接	合并连接	哈希连接
适用场景	外层循环小&＃xff0c;内存循环条件列有序	输入两端都有序	数据量大&＃xff0c;且没有索引
CPU	低	低&＃xff08;如果没有显式排序&＃xff09;	高
内存	低	低&＃xff08;如果没有显式排序&＃xff09;	高
IO	可能高可能低	低	可能高可能低

理解SQL Server这几种物理连接方式对于性能调优来说必不可少&＃xff0c;很多时候当筛选条件多表连接多时&＃xff0c;查询分析器就可能不是那么智能了&＃xff0c;因此理解这几种连接方式对于定位问题变得尤为重要。此外&＃xff0c;我们也可以通过从业务角度减少查询范围来减少低下性能连接的可能性。

参考文献:

http://msdn.microsoft.com/zh-cn/library/aa178403(v&＃61;SQL.80).aspx

http://www.dbsophic.com/SQL-Server-Articles/physical-join-operators-merge-operator.html

推荐阅读

match
MySQL索引详解与优化

本文深入探讨了MySQL中的索引机制，包括索引的基本概念、优势与劣势、分类及其实现原理，并详细介绍了索引的使用场景和优化技巧。通过具体示例，帮助读者更好地理解和应用索引以提升数据库性能。 ... [详细]

蜡笔小新 2024-12-25 19:52:47
match
构建基于BERT的中文NL2SQL模型：一个简明的基准

本文探讨了将自然语言转换为SQL语句（NL2SQL）的任务，这是人工智能领域中一项非常实用的研究方向。文章介绍了笔者在公司举办的首届中文NL2SQL挑战赛中的实践，该比赛提供了金融和通用领域的表格数据，并标注了对应的自然语言与SQL语句对，旨在训练准确的NL2SQL模型。 ... [详细]

蜡笔小新 2024-12-27 17:36:19
python
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
js
PHP 5.2.5 安装与配置指南

本文详细介绍了 PHP 5.2.5 的安装和配置步骤，帮助开发者解决常见的环境配置问题，特别是上传图片时遇到的错误。通过本教程，您可以顺利搭建并优化 PHP 运行环境。 ... [详细]

蜡笔小新 2024-12-27 19:05:41
php
深入理解 SQL 视图、存储过程与事务

本文详细介绍了SQL中的视图、存储过程和事务的概念及应用。视图为用户提供了一种灵活的数据查询方式，存储过程则封装了复杂的SQL逻辑，而事务确保了数据库操作的完整性和一致性。 ... [详细]

蜡笔小新 2024-12-27 17:40:42
include
MyBatis 动态 SQL 详解与应用

本文深入探讨 MyBatis 中动态 SQL 的使用方法，包括 if/where、trim 自定义字符串截取规则、choose 分支选择、封装查询和修改条件的 where/set 标签、批量处理的 foreach 标签以及内置参数和 bind 的用法。 ... [详细]

蜡笔小新 2024-12-27 16:20:10
include
使用C#开发SQL Server存储过程的指南

本文介绍如何利用C#在SQL Server中创建存储过程，涵盖背景、步骤和应用场景，旨在帮助开发者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-12-27 14:24:17
grid
DataGridView 保存时，为什么当前单元格的值无法保存？

在使用 DataGridView 时，如果在当前单元格中输入内容但光标未移开，点击保存按钮后，输入的内容可能无法保存。只有当光标离开单元格后，才能成功保存数据。本文将探讨如何通过调用 DataGridView 的内置方法解决此问题。 ... [详细]

蜡笔小新 2024-12-27 09:27:14
import
使用 SQLiteJDBC 和 HikariCP 实现 Java 程序连接 SQLite 数据库

本文介绍了如何通过 Maven 依赖引入 SQLiteJDBC 和 HikariCP 包，从而在 Java 应用中高效地连接和操作 SQLite 数据库。文章提供了详细的代码示例，并解释了每个步骤的实现细节。 ... [详细]

蜡笔小新 2024-12-26 17:34:42
import
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
import
PostgreSQL中的模式管理

本文由瀚高PG实验室撰写，详细介绍了如何在PostgreSQL中创建、管理和删除模式。文章涵盖了创建模式的基本命令、public模式的特性、权限设置以及通过角色对象简化操作的方法。 ... [详细]

蜡笔小新 2024-12-26 11:37:26
instance
深入解析JDBC源码

本文详细探讨了JDBC（Java数据库连接）的内部机制，重点分析其作为服务提供者接口（SPI）框架的应用。通过类图和代码示例，展示了JDBC如何注册驱动程序、建立数据库连接以及执行SQL查询的过程。 ... [详细]

蜡笔小新 2024-12-25 19:59:15
process
深入探讨CPU虚拟化与KVM内存管理

本文详细介绍了现代服务器架构中的CPU虚拟化技术，包括SMP、NUMA和MPP三种多处理器结构，并深入探讨了KVM的内存虚拟化机制。通过对比不同架构的特点和应用场景，帮助读者理解如何选择最适合的架构以优化性能。 ... [详细]

蜡笔小新 2024-12-25 19:15:51
python
深入理解领域驱动设计及其实践

本文探讨了领域驱动设计（DDD）的核心概念、应用场景及其实现方式，详细介绍了其在企业级软件开发中的优势和挑战。通过对比事务脚本与领域模型，展示了DDD如何提升系统的可维护性和扩展性。 ... [详细]

蜡笔小新 2024-12-25 18:45:55
python
SQL 触发器实现视图插入操作

本文介绍如何通过创建替代插入触发器，使对视图的插入操作能够正确更新相关的基本表。涉及的表包括：飞机（Aircraft）、员工（Employee）和认证（Certification）。 ... [详细]

蜡笔小新 2024-12-26 15:53:40

紫百合1990_950

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章