mysqljoin算法_【MySQL】之join算法详解

作者：evon0207165 | 来源：互联网 | 2024-09-27 13:57

在阿里巴巴的java开发手册有这么一条强制规定：超过三个表禁止join，须要join的字段，数据类型保持绝对一致，多表关联查

在阿里巴巴的java开发手册有这么一条强制规定&＃xff1a;超过三个表禁止join&＃xff0c;须要join的字段&＃xff0c;数据类型保持绝对一致&＃xff0c;多表关联查询时&＃xff0c;要保证被关联的字段须要有索引。

为何尽可能避免使用join&＃xff1f;若是使用join&＃xff0c;咱们应该怎么用呢&＃xff1f;接下来咱们就一块儿聊一聊关于join的几种算法。

Simple Nested-Loop Joinjava

Simple Nested-Loop Join算法是指读取驱动表t1中的每行数据&＃xff0c;将每行数据传递到被驱动表t2上&＃xff0c;取出被驱动表t2中知足条件的行,和t1组成结果集。算法

在这个算法中&＃xff0c;须要对t1进行全表扫描&＃xff0c;假设t1表1000行数据&＃xff0c;那么须要对t2表进行1000次全表扫描&＃xff0c;假设t2表也是1000行数据&＃xff0c;那么就须要扫描1000 X 1000&＃61;1000000行。sql

示例图以下&＃xff1a;当t1表5行数据&＃xff0c;t2表5行数据时&＃xff0c;须要扫描25行数据。数据库

Index Nested-Loop Joinapache

index nested-loop join算法的优化思路是经过驱动表的匹配条件&＃xff0c;直接与被驱动表的索引进行匹配&＃xff0c;减小了被驱动表的扫描次数。缓存

该算法一样要对驱动表t1进行全表扫描&＃xff0c;可是咱们在拿着t1表的数据去被驱动表t2进行匹配时能够利用t2表的索引&＃xff0c;若是t1表中1000行数据&＃xff0c;t2表中1000行数据&＃xff0c;那么一共就须要扫描1000&＃43;1000&＃61;2000行数据。这个过程就跟咱们写程序时的嵌套查询相似&＃xff0c;而且能够用上被驱动表的索引&＃xff0c;因此称之为“Index Nested-Loop Join”&＃xff0c;简称 NLJ。微信

示例以下&＃xff1a;当t1表有5行数据&＃xff0c;t2表有5行数据时&＃xff0c;一共须要扫描5&＃43;5&＃61;10行数据。数据结构

Block Nested-Loop Joinoop

Block Nested-Loop join&＃xff0c;基于块的嵌套循环&＃xff0c;简称BNL算法&＃xff0c;其优化思路主要是减小被驱动表的循坏次数&＃xff0c;它会将驱动表的数据缓存起来&＃xff0c;把参与查询的列缓存到join buffer里&＃xff0c;而后拿join buffer里的数据批量与内层表的数据在join buffer中进行匹配&＃xff0c;知足join条件的&＃xff0c;做为结果集的一部分返回。

能够看到该算法对两个表都进行了全表扫描&＃xff0c;所以扫描的行数是两个表的行数之和。这种场景下&＃xff0c;虽然在扫描行数上和NLJ算法同样&＃xff0c;可是因为BNL算法是在内存中进行判断&＃xff0c;速度上会快不少。

join buffer的大小是由参数join_buffer_size设定&＃xff0c;默认256k。若是一次放不下驱动表的全部数据&＃xff0c;会分段放&＃xff0c;这种状况下会致使被驱动表扫描屡次。若是被驱动表是冷数据表&＃xff0c;而且屡次扫描读取被驱动表间隔超过1S的话&＃xff0c;就会将他放入LRU链表的young区域&＃xff0c;致使业务数据没法进入热数据区&＃xff0c;减小了bufferpool的命中率&＃xff0c;这又是另一个课题了&＃xff0c;暂不过多展开。咱们能够经过调大join_buffer_size来提升缓存的数据量&＃xff0c;减小对被驱动表的扫描次数。

启用BNL算法须要在optimizer_switch参数中设置block_nested_loop&＃61;on。

Batched Key Access性能

BNL算法提高了join的性能&＃xff0c;可是它在经过辅助索引链接后须要回表&＃xff0c;就会消耗大量的随机I/O&＃xff0c;咱们知道随机IO对MySQL的影响是很是大的。所以MySQL5.6引入了Batched Key Access(BKA&＃xff0c;批量键访问联接)算法。

再说BKA算法时不得不提的就是MySQL的Multi-Range Read 优化&＃xff0c;MRR的目的主要是减小磁盘的随机访问。咱们都知道&＃xff0c;Innodb索引采用的是B&＃43;tree的数据结构&＃xff0c;数据保存在主键索引中&＃xff0c;而且是按照主键递增的顺序插入的&＃xff0c;可是二级索引的排列顺序和主键的排列顺序通常是不同的&＃xff0c;它保存的主键值也并不是按照主键顺序排列&＃xff0c;在回表时就会出现随机访问主键索引的状况。因此若是能够按照主键递增顺序查询的话&＃xff0c;对磁盘的读比较接近顺序读&＃xff0c;这样就可以提高读性能。

MRR优化的思路就是在进行范围查询时&＃xff0c;在获得主键值以后&＃xff0c;先按照主键的顺序进行排序&＃xff0c;而后拿着排好序的主键ID再去主键索引进行查询&＃xff0c;这样就能体现出顺序性的优点了。由于是多值查询&＃xff0c;因此通常用于range、ref类型的查询。

再说会BKA算法&＃xff0c;当被驱动表上有索引能够利用时&＃xff0c;那么就在行提交给被 join 的表以前&＃xff0c;先对两个表的对应列的索引字段进行join&＃xff0c;获得主键值后&＃xff0c;按照主键排好序后&＃xff0c;利用 MRR 技术&＃xff0c;批量访问表取数据&＃xff0c;减小了随机 IO。可是若是被 join 的表没用索引的话&＃xff0c;那就只能使用BNL算法了。

具体算法以下图&＃xff1a;

开启BKA和MRR的方式&＃xff1a;

set optimizer_switch&＃61;&＃39;mrr&＃61;on,mrr_cost_based&＃61;off,batched_key_access&＃61;on&＃39;;

MySQL在8.0版本已经实现了hash join&＃xff0c;这里暂不作介绍。

小结

如何优化join的速度呢&＃xff0c;这里给出以下几点建议&＃xff1a;

尽可能避免使用join。

用小表做为驱动表&＃xff0c;减小外层循环的次数。

多表关联查询时&＃xff0c;要保证被关联的字段要有索引。

适当增大join_buffer_size的值&＃xff0c;缓存的数据越多&＃xff0c;就越能减小被驱动表扫描的次数。

减小没必要要的字段查询。

须要join的字段&＃xff0c;数据类型保持绝对一致。

推荐阅读

post
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
数组
2023年京东Android面试真题解析与经验分享

本文由一位拥有6年Android开发经验的工程师撰写，详细解析了京东面试中常见的技术问题。涵盖引用传递、Handler机制、ListView优化、多线程控制及ANR处理等核心知识点。 ... [详细]

蜡笔小新 2024-12-26 17:45:48
get
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
数组
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
数组
从 .NET 转 Java 的自学之路：IO 流基础篇

本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ... [详细]

蜡笔小新 2024-12-26 17:37:25
cmd
golang常用库：配置文件解析库/管理工具viper使用

golang常用库：配置文件解析库管理工具-viper使用-一、viper简介viper配置管理解析库，是由大神SteveFrancia开发，他在google领导着golang的 ... [详细]

蜡笔小新 2024-12-28 13:47:52
main
Deepin系统下MySQL 5.7安装指南

本文详细记录了在基于Debian的Deepin 20操作系统上安装MySQL 5.7的具体步骤，包括软件包的选择、依赖项的处理及远程访问权限的配置。 ... [详细]

蜡笔小新 2024-12-28 10:48:41
tree
深入解析：手把手教你构建决策树算法

本文详细介绍了机器学习中广泛应用的决策树算法，通过天气数据集的实例演示了ID3和CART算法的手动推导过程。文章长度约2000字，建议阅读时间5分钟。 ... [详细]

蜡笔小新 2024-12-27 13:44:59
tree
优化MySQL InnoDB的IO性能：配置参数详解

本文深入探讨了如何通过调整InnoDB的关键配置参数来优化MySQL的随机IO性能，涵盖了缓存、日志文件、预读机制等多个方面，帮助读者全面提升数据库系统的性能。 ... [详细]

蜡笔小新 2024-12-27 13:00:29
tree
网络攻防实战：从HTTP到HTTPS的演变

本文通过一系列日记记录了从发现漏洞到逐步加强安全措施的过程，探讨了如何应对网络攻击并最终实现全面的安全防护。 ... [详细]

蜡笔小新 2024-12-27 11:34:50
command
深入解析JVM垃圾收集器

本文基于《深入理解Java虚拟机：JVM高级特性与最佳实践》第二版，详细探讨了JVM中不同类型的垃圾收集器及其工作原理。通过介绍各种垃圾收集器的特性和应用场景，帮助读者更好地理解和优化JVM内存管理。 ... [详细]

蜡笔小新 2024-12-28 13:35:19
command
LeetCode 991：故障计算器的最优解法

探讨一个显示数字的故障计算器，它支持两种操作：将当前数字乘以2或减去1。本文将详细介绍如何用最少的操作次数将初始值X转换为目标值Y。 ... [详细]

蜡笔小新 2024-12-27 14:34:44
数组
C语言实现小写金额转换为大写金额

在金融和会计领域，准确无误地填写票据和结算凭证至关重要。这些文件不仅是支付结算和现金收付的重要依据，还直接关系到交易的安全性和准确性。本文介绍了一种使用C语言实现小写金额转换为大写金额的方法，确保数据的标准化和规范化。 ... [详细]

蜡笔小新 2024-12-27 12:39:06
数组
每日一题：寻找与众不同的数字

在给定的数组中，除了一个数字外，其他所有数字都是相同的。任务是找到这个唯一的不同数字。例如，findUniq([1, 1, 1, 2, 1, 1]) 返回 2，findUniq([0, 0, 0.55, 0, 0]) 返回 0.55。 ... [详细]

蜡笔小新 2024-12-27 12:19:16
数组
Linux 网卡绑定的七种工作模式详解

本文深入探讨了Linux系统中网卡绑定（bonding）的七种工作模式。网卡绑定技术通过将多个物理网卡组合成一个逻辑网卡，实现网络冗余、带宽聚合和负载均衡，在生产环境中广泛应用。文章详细介绍了每种模式的特点、适用场景及配置方法。 ... [详细]

蜡笔小新 2024-12-27 10:18:13

evon0207165

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章