热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Mysql调优精讲(二):schema与数据类型优化

一、概述Mysql数据类型优化可以使我们在设计之初,就考虑到时间反应,以及空间的节省等方面的优化,使得Mysql数据库从设计之初就趋于完美

一、概述

    Mysql数据类型优化可以使我们在设计之初,就考虑到时间反应,以及空间的节省等方面的优化,使得Mysql数据库从设计之初就趋于完美。那么接下来就一起来什么了解一下我们可以从哪些方面进行优化吧!


二、分析


    1. 数据类型的优化


    (1) 更小的通常更好

    应该尽量使用可以正确存储数据的最小数据类型,更小的数据类型通常更快,因为它们占用更少的磁盘、内存和CPU缓存,并且处理时需要的CPU周期更少,但是要确保没有低估需要存储的值的范围,如果无法确认哪个数据类型,就选择你认为不会超过范围的最小类型
    案例:设计两张表,设计不同的数据类型,查看表的容量


    (2) 数据类型尽量简单

    简单数据类型的操作通常需要更少的CPU周期,例如:
    a、整型比字符操作代价更低,因为字符集和校对规则是字符比较比整型比较更复杂,
    b、使用mysql自建类型而不是字符串来存储日期和时间。当emp表的日期存的是字符串类型,emp2表中存的是Mysql基础日期类型,我们可以观察他们的查询效率是不同的,如下图:

    up-dc5b8caa0ff652943493c8b6e6699d44b72.png
    c、用整型存储IP地址,使用函数INET_ATON将IP地址字符串转为整型,使用INET_NTOA可将整型转为IP字符串。如下图:

    up-94905581004d704c49490b60e726a0e0336.png
    案例:创建两张相同的表,改变日期的数据类型,查看SQL语句执行的速度


    (3) 尽量避免列允许为NULL

    如果查询中包含可为NULL的列,对mysql来说很难优化,因为可为null的列使得索引、索引统计和值比较都更加复杂,坦白来说,通常情况下null的列改为not null带来的性能提升比较小,所有没有必要将所有的表的schema进行修改,但是应该尽量避免设计成可为null的列。


    (4) 实际细则

        1) 整数类型

        可以使用的几种整数类型:TINYINT,SMALLINT,MEDIUMINT,INT,BIGINT分别使用8,16,24,32,64位存储空间。
尽量使用满足需求的最小数据类型。

        2) 字符和字符串类型

        a. varchar根据实际内容长度保存数据

            ① 使用最小的符合需求的长度。

            ② varchar(n) n小于等于255使用额外一个字节保存长度,n>255使用额外两个字节保存长度。

            ③ varchar(5)与varchar(255)保存同样的内容,硬盘存储空间相同,但内存空间占用不同,是指定的大小 。

            ④ varchar在mysql5.6之前变更长度,或者从255一下变更到255以上时时,都会导致锁表。

            应用场景:

                <1> 存储长度波动较大的数据,如:文章,有的会很短有的会很长

                <2> 字符串很少更新的场景,每次更新后都会重算并使用额外存储空间保存长度

                <3> 适合保存多字节字符,如:汉字,特殊字符等

        b. char固定长度的字符串

            ① 最大长度:255

            ② 会自动删除末尾的空格

            ③ 检索效率、写效率 会比varchar高,以空间换时间

            应用场景:

                <1> 存储长度波动不大的数据,如:md5摘要

                <2> 存储短字符串、经常更新的字符串

        3) BLOB和TEXT类型

        MySQL 把每个 BLOB 和 TEXT 值当作一个独立的对象处理。两者都是为了存储很大数据而设计的字符串类型,分别采用二进制和字符方式存储。

        4) datetime和timestamp

        a. datetime

            ① 占用8个字节

            ② 与时区无关,数据库底层时区配置,对datetime无效

            ③ 可保存到毫秒

            ④ 可保存时间范围大,1000-01-01到9999-12-31之间的时间戳。

            ⑤ 不要使用字符串存储日期类型,占用空间大,损失日期类型函数的便捷性

        b. timestamp

            ① 占用4个字节

            ② 时间范围:1970-01-01到2038-01-19

            ③ 精确到秒

            ④ 采用整形存储

            ⑤ 依赖数据库设置的时区。方便跨时间系统的数据统一。

            ⑥ 自动更新timestamp列的值

        c. date

            ① 占用的字节数比使用字符串、datetime、int存储要少,使用date类型只需要3个字节

            ② 使用date类型还可以利用日期时间函数进行日期之间的计算

            ③ date类型用于保存1000-01-01到9999-12-31之间的日期

        5) 使用枚举代替字符串类型

        有时可以使用枚举类代替常用的字符串类型,mysql存储枚举类型会非常紧凑,会根据列表值的数据压缩到一个或两个字节中,mysql在内部会将每个值在列表中的位置保存为整数,并且在表的.frm文件中保存“数字-字符串”映射关系的查找表,代码如下:


 create table enum_test(e enum(&#39;fish&#39;,&#39;apple&#39;,&#39;dog&#39;) not null);insert into enum_test(e) values(&#39;fish&#39;),(&#39;dog&#39;),(&#39;apple&#39;);select e+0 from enum_test;

        6) 特殊类型数据

        人们经常使用varchar(15)来存储ip地址,然而,它的本质是32位无符号整数不是字符串,可以使用INET_ATON()和INET_NTOA函数在这两种表示方法之间转换。(与数据类型的优化中的数据类型尽量简单相同)
        案例代码如下:


select inet_aton(&#39;1.1.1.1&#39;)
select inet_ntoa(16843009)
wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==


    2. 合理使用范式与反范式


    (1) 范式

        1) 优点:范式化的更新通常比反范式要快;当数据较好的范式化后,很少或者没有重复的数据;范式化的数据比较小,可以放在内存中,操作比较快。

        2) 缺点:通常需要进行关联。


    (2) 反范式

        1) 优点:所有的数据都在同一张表中,可以避免关联;可以设计有效的索引。

        2) 缺点:表格内的冗余较多,删除数据时候会造成表有些有用的信息丢失。


    (3) 注意

        在企业中很好能做到严格意义上的范式或者反范式,一般需要混合使用。我们采用一个案例进行分析,如下:

        范式设计:

   

        反范式设计:

        由上可以看出,当数据量比较大时,采用范式设计的表结构需要关联查询很多张表;而反范式设计只需要一张表就可以完成。所以我们在实际应用中需要结合业务设计最合理的表结构。


    3. 主键的选择

    (1) 代理主键:与业务无关的,无意义的数字序列。

    (2) 自然主键:事物属性中的自然唯一标识。

    总结:推荐使用代理主键。它们不与业务耦合,因此更容易维护;一个大多数表,最好是全部表,通用的键策略能够减少需要编写的源码数量,减少系统的总体拥有成本。分布式系统通常采用雪花算法利用单例模式产生唯一的自增可排序的id。


    4. 字符集的选择

    (1) 纯拉丁字符能表示的内容,没必要选择 latin1 之外的其他字符编码,因为这会节省大量的存储空间。

    (2) 如果我们可以确定不需要存放多种语言,就没必要非得使用UTF8或者其他UNICODE字符类型,这回造成大量的存储空间浪费。

    (3) MySQL的数据类型可以精确到字段,所以当我们需要大型数据库中存放多字节数据的时候,可以通过对不同表不同字段使用不同的数据类型来较大程度减小数据存储量,进而降低 IO 操作次数并提高缓存命中率。

    通常使用Mysql数据时,需要使用UTF-8时,我们会使用utf8mb4来替代,具体请参看《MySQL中UTF-8编码方式和utf8mb4的区别》。


    5. 存储引擎的选择

    存储引擎的对比图如下:

    


    6. 适当的数据冗余

    (1) 被频繁引用且只能通过 Join 2张(或者更多)大表的方式才能得到的独立小字段。

    (2) 这样的场景由于每次Join仅仅只是为了取得某个小字段的值,Join到的记录又大,会造成大量不必要的 IO,完全可以通过空间换取时间的方式来优化。不过,冗余的同时需要确保数据的一致性不会遭到破坏,确保更新的同时冗余字段也被更新。


    7. 适当的拆分

    当我们的表中存在类似于 TEXT 或者是很大的 VARCHAR类型的大字段的时候,如果我们大部分访问这张表的时候都不需要这个字段,我们就该义无反顾的将其拆分到另外的独立表中,以减少常用数据所占用的存储空间。这样做的一个明显好处就是每个数据块中可以存储的数据条数可以大大增加,既减少物理 IO 次数,也能大大提高内存中的缓存命中率。


三、总结

    通过本文的学习,我们知道了数据类型的优化、范式与反范式组合、主键选择、字符集选择、存储引擎选择等方面来对Mysql从框架结构上进行优化。

    更多精彩内容,敬请扫描下方二维码,关注我的微信公众号【Java觉浅】,获取第一时间更新哦!

                                                


推荐阅读
  • MyBatis多表查询与动态SQL使用
    本文介绍了MyBatis多表查询与动态SQL的使用方法,包括一对一查询和一对多查询。同时还介绍了动态SQL的使用,包括if标签、trim标签、where标签、set标签和foreach标签的用法。文章还提供了相关的配置信息和示例代码。 ... [详细]
  • 本文详细介绍了SQL日志收缩的方法,包括截断日志和删除不需要的旧日志记录。通过备份日志和使用DBCC SHRINKFILE命令可以实现日志的收缩。同时,还介绍了截断日志的原理和注意事项,包括不能截断事务日志的活动部分和MinLSN的确定方法。通过本文的方法,可以有效减小逻辑日志的大小,提高数据库的性能。 ... [详细]
  • 本文介绍了如何使用php限制数据库插入的条数并显示每次插入数据库之间的数据数目,以及避免重复提交的方法。同时还介绍了如何限制某一个数据库用户的并发连接数,以及设置数据库的连接数和连接超时时间的方法。最后提供了一些关于浏览器在线用户数和数据库连接数量比例的参考值。 ... [详细]
  • 本文详细介绍了MysqlDump和mysqldump进行全库备份的相关知识,包括备份命令的使用方法、my.cnf配置文件的设置、binlog日志的位置指定、增量恢复的方式以及适用于innodb引擎和myisam引擎的备份方法。对于需要进行数据库备份的用户来说,本文提供了一些有价值的参考内容。 ... [详细]
  • 本文由编程笔记小编整理,介绍了PHP中的MySQL函数库及其常用函数,包括mysql_connect、mysql_error、mysql_select_db、mysql_query、mysql_affected_row、mysql_close等。希望对读者有一定的参考价值。 ... [详细]
  • 图解redis的持久化存储机制RDB和AOF的原理和优缺点
    本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件,恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘,实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点,帮助读者更好地理解redis的持久化存储策略。 ... [详细]
  • Java String与StringBuffer的区别及其应用场景
    本文主要介绍了Java中String和StringBuffer的区别,String是不可变的,而StringBuffer是可变的。StringBuffer在进行字符串处理时不生成新的对象,内存使用上要优于String类。因此,在需要频繁对字符串进行修改的情况下,使用StringBuffer更加适合。同时,文章还介绍了String和StringBuffer的应用场景。 ... [详细]
  • 本文详细介绍了在ASP.NET中获取插入记录的ID的几种方法,包括使用SCOPE_IDENTITY()和IDENT_CURRENT()函数,以及通过ExecuteReader方法执行SQL语句获取ID的步骤。同时,还提供了使用这些方法的示例代码和注意事项。对于需要获取表中最后一个插入操作所产生的ID或马上使用刚插入的新记录ID的开发者来说,本文提供了一些有用的技巧和建议。 ... [详细]
  • 本文详细介绍了Spring的JdbcTemplate的使用方法,包括执行存储过程、存储函数的call()方法,执行任何SQL语句的execute()方法,单个更新和批量更新的update()和batchUpdate()方法,以及单查和列表查询的query()和queryForXXX()方法。提供了经过测试的API供使用。 ... [详细]
  • 本文讨论了在数据库打开和关闭状态下,重新命名或移动数据文件和日志文件的情况。针对性能和维护原因,需要将数据库文件移动到不同的磁盘上或重新分配到新的磁盘上的情况,以及在操作系统级别移动或重命名数据文件但未在数据库层进行重命名导致报错的情况。通过三个方面进行讨论。 ... [详细]
  • 本文介绍了iOS数据库Sqlite的SQL语句分类和常见约束关键字。SQL语句分为DDL、DML和DQL三种类型,其中DDL语句用于定义、删除和修改数据表,关键字包括create、drop和alter。常见约束关键字包括if not exists、if exists、primary key、autoincrement、not null和default。此外,还介绍了常见的数据库数据类型,包括integer、text和real。 ... [详细]
  • 本文讨论了在openwrt-17.01版本中,mt7628设备上初始化启动时eth0的mac地址总是随机生成的问题。每次随机生成的eth0的mac地址都会写到/sys/class/net/eth0/address目录下,而openwrt-17.01原版的SDK会根据随机生成的eth0的mac地址再生成eth0.1、eth0.2等,生成后的mac地址会保存在/etc/config/network下。 ... [详细]
  • 本文详细介绍了如何使用MySQL来显示SQL语句的执行时间,并通过MySQL Query Profiler获取CPU和内存使用量以及系统锁和表锁的时间。同时介绍了效能分析的三种方法:瓶颈分析、工作负载分析和基于比率的分析。 ... [详细]
  • MySQL外键1对多问题的解决方法及实例
    本文介绍了解决MySQL外键1对多问题的方法,通过准备数据、创建表和设置外键关联等步骤,实现了用户分组和插入数据的功能。详细介绍了数据准备的过程和外键关联的设置,以及插入数据的示例。 ... [详细]
  • Python SQLAlchemy库的使用方法详解
    本文详细介绍了Python中使用SQLAlchemy库的方法。首先对SQLAlchemy进行了简介,包括其定义、适用的数据库类型等。然后讨论了SQLAlchemy提供的两种主要使用模式,即SQL表达式语言和ORM。针对不同的需求,给出了选择哪种模式的建议。最后,介绍了连接数据库的方法,包括创建SQLAlchemy引擎和执行SQL语句的接口。 ... [详细]
author-avatar
开在覀黎明前的小茉莉
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有