当前位置: 开发笔记 > 数据库 > 正文

SQLServer三大算法的I/O成本

作者：骚扰list_238 | 来源：互联网 | 2018-06-09 10:18

1.NestedLoopJoin(嵌套循环联结)算法：其思路相当的简单和直接：对于关系R的每个元组r将其与关系S的每个元组s在JOIN条件的字段上直接比较并筛选出符合条件的元组。写成伪代码就是：代价：被联结的表所处内层或外层的顺序对磁盘IO开销有着非常重

1. Nested Loop Join(嵌套循环联结) 算法：其思路相当的简单和直接：对于关系R的每个元组 r 将其与关系S的每个元组 s 在JOIN条件的字段上直接比较并筛选出符合条件的元组。写成伪代码就是：代价：被联结的表所处内层或外层的顺序对磁盘I/O开销有着非常重

　　1. Nested Loop Join(嵌套循环联结)

　　算法：

　　其思路相当的简单和直接：对于关系R的每个元组 r 将其与关系S的每个元组 s 在JOIN条件的字段上直接比较并筛选出符合条件的元组。写成伪代码就是：

　　代价：

　　被联结的表所处内层或外层的顺序对磁盘I/O开销有着非常重要的影响。而CPU开销相对来说影响较小，主要是元组读入内存以后(in-memory)的开销，是 O (n * m)

　　对于I/O开销，根据 page-at-a-time 的前提条件，I/O cost = M + M * N，

　　翻译一下就是 I/O的开销 = 读取M页的I/O开销 + M次读取N页的I/O开销。

　　2. Sort-Merge Join (排序合并联结)

　　Nested Loop一般在两个集合都很大的情况下效率就相当差了，而Sort-Merge在这种情况下就比它要高效不少，尤其是当两个集合的JOIN字段上都有聚集索引(clustered index)存在时，Sort-Merge性能将达到最好。

　　算法：

　　基本思路也很简单(复习一下数据结构中的合并排序吧)，主要有两个步骤：

　　a.按JOIN字段进行排序

　　b.对两组已排序集合进行合并排序，从来源端各自取得数据列后加以比较(需要根据是否在JOIN字段有重复值做特殊的“分区”处理)

　　代价：(主要是I/O开销)

　　有两个因素左右Sort-Merge的开销：JOIN字段是否已排序以及 JOIN字段上的重复值有多少。

　　◆最好情况下(两列都已排序且至少有一列没有重复值)：O (n + m) 只需要对两个集合各扫描一遍。(这里的m，n如果都能用到索引那就更好了)

　　◆最差情况下(两列都未排序且两列上的所有值都相同)：O (n * log n + m * log m + n * m) 两次排序以及一次全部元组间的笛卡尔乘积

　　3. Hash Join (哈希联结)

　　Hash Join在本质上类似于两列都有重复值时的Sort-Merge的处理思想——分区(patitioning)。但它们也有区别：Hash Join通过哈希来分区(每一个桶就是一个分区)而Sort-Merge通过排序来分区(每一个重复值就是一个分区)。

　　值得注意的是，，Hash Join与上述两种算法之间的较大区别同时也是一个较大限制是它只能应用于等值联结(equality join)，这主要是由于哈希函数及其桶的确定性及无序性所导致的。

　　算法：

　　基本的Hash Join算法由以下两步组成：

　　同nested loop，在执行计划中build input位于上方，probe input位于下方。

　　hash join操作分两个阶段完成：build(构造)阶段和probe(探测)阶段。

　　a.Build Input Phase：基于JOIN字段，使用哈希函数h2为较小的S集合构建内存中(in-memory)的哈希表，相同键值的以linked list组成一个桶(bucket)

　　b.Probe Input Phase：在较大的R集合上对哈希表进行核对以完成联结。

　　代价：

　　值得注意的是对于大集合R的每个元组 r ，hash bucket中对应 r 的那个bucket中的每个元组都需要与 r 进行比较，这也是算法最耗时的地方所在。

　　CPU开销是O (m + n * b) b是每个bucket的平均元组数量。

　　总结：

　　三种join方法，都是拥有两个输入，优化的基本原则：

　　1.避免大数据的hash join，(hash join适合低并发情况，他占用内存和io是很大的);

　　2.尽量将其转化为高效的merge join、nested loop join。可能使用的手段有表结构设计、索引调整设计、SQL优化，以及业务设计优化。

算法
sql

推荐阅读

join
SQL Server 存储过程开发与优化指南

本文总结了在SQL Server数据库中编写和优化存储过程的经验和技巧，旨在帮助数据库开发人员提升存储过程的性能和可维护性。 ... [详细]

蜡笔小新 2024-11-12 13:13:21
sql
如何撰写数据分析师（包括转行者）的面试简历？

CDA数据分析师团队出品，作者：徐杨老师，编辑：Mika。本文将帮助您了解如何撰写一份高质量的数据分析师简历，特别是对于转行者。 ... [详细]

蜡笔小新 2024-11-12 18:20:52
数据库
深入解析数据库并发控制机制

本文详细介绍了数据库并发控制的基本概念、重要性和具体实现方法。并发控制是确保多个事务在同时操作数据库时保持数据一致性的关键机制。文章涵盖了锁机制、多版本并发控制（MVCC）、乐观并发控制和悲观并发控制等内容。 ... [详细]

蜡笔小新 2024-11-12 12:37:08
数据库
LintCode 1218. 计算补数的 JavaScript 算法

本题要求给定一个正整数，计算其补数。补数是指将该数字的二进制表示逐位取反，然后转换回十进制得到的新数。 ... [详细]

蜡笔小新 2024-11-13 10:59:10
sql
MySQL 中 SQL 正则表达式的应用与技巧

本文介绍了在 MySQL 中如何使用正则表达式来提高查询效率，通过具体示例展示了如何筛选包含中文字符的记录，并详细解释了正则表达式的各种特殊字符和结构。 ... [详细]

蜡笔小新 2024-11-12 21:03:49
数据库
SQL 批量导入时管理外键约束

本文介绍如何在将数据库从服务器复制到本地时，处理因外键约束导致的数据插入失败问题。 ... [详细]

蜡笔小新 2024-11-12 19:05:11
sql
Android 开发教程：SQLite 数据库使用详解

本视频教程将带你快速了解 Android 开发的基础知识，并详细讲解如何在 Android 应用中使用 SQLite 数据库进行数据存储和管理。 ... [详细]

蜡笔小新 2024-11-12 18:59:48
数据库
Spring Boot 使用 JPA 删除数据时 SQL 错误解决方案

本文介绍了在 Spring Boot 中使用 JPA 进行数据删除操作时遇到的 SQL 错误及其解决方法。错误表现为：删除操作失败，原因是无法打开 JPA EntityManager 以进行事务处理。 ... [详细]

蜡笔小新 2024-11-12 18:01:11
数据库
Pythonmysql数据库

importpymysql#一、直接连接mysql数据库'''coonpymysql.connect(host'192.168.*.*',u ... [详细]

蜡笔小新 2024-11-12 16:51:59
数据库
Oracle 用户锁定问题及解决方法

本文介绍了如何在 Oracle 数据库中检查和处理用户锁定问题，包括查询被锁定的用户、解锁用户以及调整登录失败次数限制的方法。 ... [详细]

蜡笔小新 2024-11-12 16:33:00
数据库
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
database
MySQL 5.7 学习指南：SQLyog 中的主键、列属性和数据类型

本文介绍了 MySQL 5.7 中主键（Primary Key）和自增（Auto-Increment）的概念，以及如何在 SQLyog 中设置这些属性。同时，还探讨了数据类型的分类和选择，以及列属性的设置方法。 ... [详细]

蜡笔小新 2024-11-12 15:57:04
redis
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
数据库
如何在Java中使用DButils类

这期内容当中小编将会给大家带来有关如何在Java中使用DButils类，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。D ... [详细]

蜡笔小新 2024-11-12 13:46:11
sql
C盘无法格式化的原因及解决方法

本文探讨了C盘无法格式化的原因，并提供了详细的解决方案，帮助用户顺利进行系统维护。 ... [详细]

蜡笔小新 2024-11-12 13:05:47

骚扰list_238

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章