热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

MySQL中JOIN查询详解

一般而言,如果要设计一个小型数据库(指代码量少),但又要适应海量数据及访问的性能需求,最有效的方法莫过于针对主要应用场景

一般而言,如果要设计一个小型数据库(指代码量少),但又要适应海量数据及访问的性能需求,最有效的方法莫过于针对主要应用场景

一般而言,如果要设计一个小型数据库(指代码量少),但又要适应海量数据及访问的性能需求,最有效的方法莫过于针对主要应用场景选择一个或几个性能优异的核心算法作为引擎,然后努力将一些非主要应用场景作为该算法的特例或变种植入到引擎当中。
MySQL、PostgreSQL 等就是这么做的。 在 MySQL 的 SELECT 查询当中,其核心算法就是 JOIN 查询算法。其他的查询语句都相应向 JOIN 靠拢:单表查询被当作 JOIN 的特例;子查询被尽量转换为 JOIN 查询……
这里将从 MySQL 5.0 的源代码入手,简要分析 MySQL 处理 JOIN 查询的流程和思路。

1. MySQL SELECT处理流程
下图是一个 SELECT SQL 传到 MySQL 服务端以后经过的主要函数流程图。图上每个小矩形框内代表一个函数,箭头的起点为调用者,终点为被调函数。箭头指向一个大框,则表示调用者调用了一组函数,顺序基本是从上向下。
注:这里所说的 SQL 都不包含 UNION 子句,因为 MySQL 用了单独的 UNION 引擎来处理对应 SQL,而对于一般开发而言我们也很少使用 UNION 查询。
在上面所有函数中,mysql_excute_command() 函数是 MySQL 处理各类 SQL 语句的统一入口。SQL 语句在经过简单的语法解析以后,送到这里,由该函数作进一步分析,并调用相应的handle接口作后续处理。对于 SELECT 相关的语句,主要调用 handle_select() 和 mysql_select() 两个函数。
handle_select() 可以处理 SELECT 中含有 UNION 子句的情况。在不含 UNION 的简单结构中,也会直接调用 mysql_select() 函数。
mysql_select() 函数就是不带 UNION 子句的 SELECT 语句的入口点函数。通常状况下,每次调用以后,它会依次调用 JOIN 类的 prepare() 、optimize() 、exec() 三个函数来完成 SELECT 语句的预处理、优化、执行和结果输出功能。
JOIN::prepare() 是一个前处理函数。主要进行参数合法性检查、语法分析并生成更准确的计算机描述、打开记录表、子查询转换等操作。
JOIN::optimize() 是整个 SELECT 流程的关键所在,它负责对前面生成的各种描述结构进行各种优化。优化过程基于大量的规则进行,这些规则我们后面再详细讲述。 JOIN::optimize() 调用的一系列函数我们不一一述及,也将各函数内的优化规则总结、概括到后面去一并讲解。
JOIN::exec() 也会进行一些运行时优化,这些优化过程会导致实际执行过程与 EXPLAIN 中显示的不一致。但大多数情况下,JOIN::exec() 会遵照前面优化的过程执行,,因此 JOIN 的流程也基本在 optimize() 中确定。
JOIN::exec() 与 JOIN 最相关的部分是调用 do_select() 函数执行取数据的操作。do_select() 会调用 sub_select() 函数,该调用采用递归的方法将两两相邻的表按照依赖关系进行归并,逐步得到最终的结果集。
结果集返回的操作也在 JOIN::exec() 中执行,或返回到临时表,或输入到文件,或发送到 socket。这些不是我们关注的重点,因此也一笔带过。

2. MySQL优化规则
MySQL 优化器的工作是基于规则设计的,如果规则存在缺陷,相应部分的应用也会有一些性能损失。与一些先进的大型数据库不同,MySQL 的这些性能损失可能是永久的(对固定版本而言)。因为大型数据库在执行过程中会对各种优化结果的执行情况进行统计评估以便自动改进后续的执行优化状况,而 MySQL 目前没有这些功能。因此,了解 MySQL 的优化规则,对于较好地设计 SQL 语句,提高执行效率有很大的指导意义。
下面列出 MySQL 5 在处理SELECT查询时设计的一些规则。

规则1:如果操作只涉及常表,则去除 DISTINCT 子句;否则如果只有一个表,在以下情况下会将 DISTINCT 转为 GROUP BY 查询:

GROUP BY 可以通过索引实现(不用对索引排序),ORDER BY 只需对选择出的记录集排序(该情况下,优化器会对 GROUP BY 和 ORDER BY 进行额外的优化)。
没有使用 LIMIT,所以要作全表扫描。
全表扫描发生的情况通常为以下两种:

查询中使用了 SQL_CALC_FOUND_ROWS。
使用的 ORDER BY 子句无法优化。
当 SELECT 语句包含了 LIMIT 子句(这里和后文提及 LIMIT 子句的时候,默认是没有 SQL_CALC_FOUND_ROWS 子句存在的情况)时,优化器将不使用这一优化规则,因为该情况下优化器将创建临时表放置 LIMIT 所限制的记录数,然后返回。
注:LIMIT 子句跟 DISTINCT、GROUP BY、ORDER BY等子句共存的状况比较复杂。此时使用 LIMIT 子句除了减少了发送记录过程中的耗时以外,通常不应期望有更多的速度提高。因为后面三个子句中的任一个都可能会使得不管是否存在 LIMIT 子句都要做同样多,甚至更多一点点的计算。

这里顺便介绍常表的概念。 所谓常表,包括以下类型:

一个没有记录或只有一行记录的表。
一个表的表达式受 WHERE 子句限制,表达式形式为“column = constant”,并且该 column 是该表的 PRIMARY KEY 或 UNIQUE KEY(假设该 UNIQUE 列同时被定义为 NOT NULL)。
规则2:优化器在以下情况会考虑创建临时表:

SELECT 语句中存在 DISTINCT 子句(基于准则1可以优化掉的 DISTINCT 已经优化掉了)。
对表链(table list)中第二及后面的表施加了 ORDER BY 或 GROUP BY 操作。
使用了不同的 ORDER BY 和 GROUP BY 顺序,或排序操作较为复杂。
用户希望我们缓冲结果。
使用了 LIMIT 子句。
是否要创建临时表,会在所有表都读入之前确定。

规则3:尽量将 OUTER JOIN 转换为 INNER JOIN,并尽可能地嵌套。相应地,ON 子句的条件表达式也会被移动到 WHERE 子句。
如果嵌套循环JOIN的 WHERE 子句或 ON 子句中有一个条件表达式剔除了内表中某属性为 NULL 的所有值,则 OUTER JOIN 可以替换为 INNER JOIN 。

例如,下面的查询中:
SELECT * FROM t1 LEFT JOIN t2 ON t2.a=t1.a WHERE t2.b <5 条件 t2.b <5 剔除了 NULL 项,该查询首先被转换为:
SELECT * FROM t1 INNER JOIN t2 ON t2.a=t1.a WHERE t2.b <5 然后转换为等价形式:
SELECT * FROM t1, t2 ON t2.a=t1.a WHERE t2.b <5 AND t2.a=t1.a

类似地,下面的查询:
SELECT * FROM t1 LEFT JOIN (t2, t3) ON t2.a=t1.a t3.b=t1.b WHERE t2.c <5 转化为:
SELECT * FROM t1, (t2, t3) WHERE t2.c <5 AND t2.a=t1.a t3.b=t1.b

一个转换可能会触发另一个
SELECT * FROM t1 LEFT JOIN t2 ON t2.a=t1.a
LEFT JOIN t3 ON t3.b=t2.b
WHERE t3 IS NOT NULL 将转换为:
SELECT * FROM t1 LEFT JOIN t2 ON t2.a=t1.a, t3
WHERE t3 IS NOT NULL AND t3.b=t2.b 再转换为:
SELECT * FROM t1, t2, t3
WHERE t3 IS NOT NULL AND t3.b=t2.b AND t2.a=t1.a

规则4:尽量将多个等式转换连等式。

规则5:ORDER BY 操作尽量施加在结果集而不是源集上。
但在 JOIN 操作的 ON 子句中有等式或不等式(指不包括"!="在内的其他比较符号)且等式两边没有常数时,可能会先对源集进行排序,然后进行归并联接。

规则6:如果某个索引可以获取所有 SELECT 语句需要的列,则优先考虑该索引。

规则7:尽量将子查询转换为 JOIN。
大多数情况下,子查询可能需要较多的临时表存储,并且查询速度较之 JOIN 要慢得多。

规则8:在允许的情况下,对 JOIN 的各个表重排次序,提高执行的速度。
数据量较小的表可能会被放在最前面先处理,数据量较大的表会稍后处理。但如果 ON 子句明确指定了依赖关系,根据依赖关系处理,顺序不可调整。

linux

推荐阅读
  • 1:有如下一段程序:packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]
  • 本文详细探讨了不同SQL数据库管理系统(DBMS)在限制输出结果、拼接字段和日期时间处理方面的函数差异。通过具体示例,帮助读者理解并掌握如何在不同DBMS中实现相同功能。 ... [详细]
  • PHP 编程疑难解析与知识点汇总
    本文详细解答了 PHP 编程中的常见问题,并提供了丰富的代码示例和解决方案,帮助开发者更好地理解和应用 PHP 知识。 ... [详细]
  • PHP 5.2.5 安装与配置指南
    本文详细介绍了 PHP 5.2.5 的安装和配置步骤,帮助开发者解决常见的环境配置问题,特别是上传图片时遇到的错误。通过本教程,您可以顺利搭建并优化 PHP 运行环境。 ... [详细]
  • 深入理解 SQL 视图、存储过程与事务
    本文详细介绍了SQL中的视图、存储过程和事务的概念及应用。视图为用户提供了一种灵活的数据查询方式,存储过程则封装了复杂的SQL逻辑,而事务确保了数据库操作的完整性和一致性。 ... [详细]
  • 本文深入探讨 MyBatis 中动态 SQL 的使用方法,包括 if/where、trim 自定义字符串截取规则、choose 分支选择、封装查询和修改条件的 where/set 标签、批量处理的 foreach 标签以及内置参数和 bind 的用法。 ... [详细]
  • 本文探讨了适用于Spring Boot应用程序的Web版SQL管理工具,这些工具不仅支持H2数据库,还能够处理MySQL和Oracle等主流数据库的表结构修改。 ... [详细]
  • 本文详细介绍了如何通过多种编程语言(如PHP、JSP)实现网站与MySQL数据库的连接,包括创建数据库、表的基本操作,以及数据的读取和写入方法。 ... [详细]
  • Windows 系统下 MySQL 8.0.11 的安装与配置
    本文详细介绍了在 Windows 操作系统中安装和配置 MySQL 8.0.11 的步骤,包括环境准备、安装过程以及后续配置,帮助用户顺利完成数据库的部署。 ... [详细]
  • 本文深入探讨了如何通过调整InnoDB的关键配置参数来优化MySQL的随机IO性能,涵盖了缓存、日志文件、预读机制等多个方面,帮助读者全面提升数据库系统的性能。 ... [详细]
  • 本文详细介绍如何下载并安装MySQL数据库(5.7.10版本),以及配置Navicat管理工具(免费版)。通过本指南,您将了解从下载到安装的完整流程,并掌握基本的数据库管理技能。 ... [详细]
  • 本文探讨了在处理大量物联网设备时,如何合理设计关系型数据库来高效记录设备的上下线历史,确保数据的可维护性和扩展性。 ... [详细]
  • MySQL 用户创建失败的解决方案
    本文详细介绍了在 MySQL 中遇到用户创建失败问题时的解决方法,包括如何正确配置环境、执行命令以及常见错误排查技巧。通过逐步指导,帮助用户顺利添加和管理 MySQL 用户。 ... [详细]
  • 本文详细介绍了如何通过命令行启动MySQL服务,包括打开命令提示符窗口、进入MySQL的bin目录、输入正确的连接命令以及注意事项。文中还提供了更多相关命令的资源链接。 ... [详细]
  • 解读MySQL查询执行计划的详细指南
    本文旨在帮助开发者和数据库管理员深入了解如何解读MySQL查询执行计划。通过详细的解析,您将掌握优化查询性能的关键技巧,了解各种访问类型和额外信息的含义。 ... [详细]
author-avatar
手机用户2502894277
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有