热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

漫话:如何给女朋友解释为什么不能在MySQL中使用UTF8编码

MySQL是一种关系型数据库,这个大家肯定都不陌生,使用MySQL创建数据库
漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码
漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码
漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码
漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码
漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码
漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码
漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码
漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码
漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码
漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码

MySQL是一种关系型数据库,这个大家肯定都不陌生,使用MySQL创建数据库的时候,大家需要指定一种编码方式。

很多时候,大家基于自己对编码方式的了解,会认为UTF-8是一种通用的编码方式,所以大多数时候会默认选择这种编码方式。

但是,这往往会给你的数据库埋下一个大坑!!!

漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码
漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码
漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码

MySQL对Unicode的支持

Unicode字符集,他现在已经是计算机科学领域里的一项业界标准,它对世界上大部分的文字系统进行了整理、编码,使得计算机可以用更为简单的方式来呈现和处理文字。

为了适应不同的数据存储和传递需求,人们提出了 Unicode Transformation Format(UTF)系列编码。这其中包含UTF-8、UTF-16、UTF-32等。

通过查阅MySQL官方文档,我们可以知道,在MySQL中,主要支持以下字符集:utf8、ucs2、utf8mb3、utf8mb4、utf16、utf16le和utf32

不同的字符集的区别在于包含的字符情况以及存储需要的空间。

漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码

在MySQL官方文档中,介绍了支持的编码方式之后,还有一段醒目的提醒:

漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码

翻译过来是:utf8mb3字符集已被弃用,它在未来的MySQL版本中将会被删除,请使用utf8mb4代替。在目前的8.0版本中,utf8指的就是utf8mb3,虽然未来可能改成utf8mb4,但是为了避免产生歧义,可以考虑为字符集引用显式指定utf8mb4,而不是utf8。

也就是说,当我们在MySQL 8.0 中指定字符编码方式为UTF-8的时候,其实使用的是utf8mb3这种编码方式。

那么,我们先来说说utf8mb3。

漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码
漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码
漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码
漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码
漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码

utf8mb3

utf8mb3字符集是MySQL早期就支持的字符集,他具有以下特征:

1、仅支持BMP字符(不支持补充字符)

2、每个多字节字符最多需要三个字节

注意,仅支持BMP字符,那么什么是BMP字符呢?

BMP是Basic Multilingual Plane的缩写,即码位在0到65535之间(或者U+0000和U+FFFF)的字符。

BMP中并不包含补充字符,即码位在U+10000和U+10FFFF之间的的字符。补充字符有哪些呢,如一些生僻的汉字,或者Emoji 表情等都是补充字符。

也就是说,如果在建表的时候,指定的编码方式是utf8mb3(utf-8),那么对于一些生僻字或者emoji表情都无法表示。

漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码
漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码
漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码
漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码
漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码

utf8mb4

早期的时候,Unicode 只用到了 0~0xFFFF 范围的数字编码,这就是 BMP 字符集。所以,最初MySQL在设计之初,也就只涉及了包含BMP 字符集的utfmb3(utf-8),但是随着文字越来越多,3个字节肯定无法全部表示,于是Unicode支持的字符就更多了。

所以,早期的utfmb3在有些场景中就不能满足需求了,于是,MySQL在5.5.3之后增加了utf8mb4的编码。

utfmb4字符集具有以下特征:

1、支持BMP和补充字符。

2、每个多字节字符最多需要4个字节。

utf8mb4与utf8mb3字符集不同,utf8mb3字符集只支持BMP字符,每个字符最多使用三个字节:

对于BMP字符,utf8mb4和utf8mb3具有相同的存储特征,即相同的编码值,相同的编码,相同的长度。

对于补充字符,utf8mb4需要4个字节来存储它,而utf8mb3根本不能存储该字符。所以我们说utf8mb4是utf8mb3的超集。

所以,很多时候,为了考虑到兼容性,建议创建MySQL表的时候,使用utf8mb4,而不是utf8!

utf8mb3和utf8mb4区别及优缺点

前面分别介绍了utf8mb3和utf8mb4字符集,他们的区别如下:

utf8mb3只支持BMP (Basic Multilingual Plane)的字符。utf8mb4还支持BMP之外的补充字符。

utf8mb3每个字符最多使用3个字节。Utf8mb4每个字符最多使用4个字节。

utf8mb4比utf8mb3来说,他能表示更多的补充字符,但是同时占用的空间可能会更大一些。

漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码
漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码
漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码
漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码
漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码

从utf8mb3转换成utf8mb4

首先,想要把字符集从utf8mb3转换到utf8mb4,其实是问题不大的:

对于BMP字符,utf8mb4和utf8mb3具有相同的存储特征:相同的编码值,相同的编码,相同的长度。

对于补充字符,utf8mb4需要4个字节来存储它,而utf8mb3根本不能存储该字符。当将utf8mb3列转换为utf8mb4时,您不必担心转换补充字符,因为没有补充字符。

假设有一张已知表使用了utf8mb3:

CREATE TABLE t1 (

下面的语句将t1转换为utf8mb4:

ALTER TABLE t1
漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码
漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码
漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码
漫话:如何给女朋友解释为什么不能在 MySQL 中使用 UTF-8 编码

推荐阅读
  • 本文介绍了SIP(Session Initiation Protocol,会话发起协议)的基本概念、功能、消息格式及其实现机制。SIP是一种在IP网络上用于建立、管理和终止多媒体通信会话的应用层协议。 ... [详细]
  • 二维码的实现与应用
    本文介绍了二维码的基本概念、分类及其优缺点,并详细描述了如何使用Java编程语言结合第三方库(如ZXing和qrcode.jar)来实现二维码的生成与解析。 ... [详细]
  • Web动态服务器Python基本实现
    Web动态服务器Python基本实现 ... [详细]
  • 在1995年,Simon Plouffe 发现了一种特殊的求和方法来表示某些常数。两年后,Bailey 和 Borwein 在他们的论文中发表了这一发现,这种方法被命名为 Bailey-Borwein-Plouffe (BBP) 公式。该问题要求计算圆周率 π 的第 n 个十六进制数字。 ... [详细]
  • 如何在Django框架中实现对象关系映射(ORM)
    本文介绍了Django框架中对象关系映射(ORM)的实现方式,通过ORM,开发者可以通过定义模型类来间接操作数据库表,从而简化数据库操作流程,提高开发效率。 ... [详细]
  • 我的读书清单(持续更新)201705311.《一千零一夜》2006(四五年级)2.《中华上下五千年》2008(初一)3.《鲁滨孙漂流记》2008(初二)4.《钢铁是怎样炼成的》20 ... [详细]
  • 如何将955万数据表的17秒SQL查询优化至300毫秒
    本文详细介绍了通过优化SQL查询策略,成功将一张包含955万条记录的财务流水表的查询时间从17秒缩短至300毫秒的方法。文章不仅提供了具体的SQL优化技巧,还深入探讨了背后的数据库原理。 ... [详细]
  • 本文介绍了如何通过C#语言调用动态链接库(DLL)中的函数来实现IC卡的基本操作,包括初始化设备、设置密码模式、获取设备状态等,并详细展示了将TextBox中的数据写入IC卡的具体实现方法。 ... [详细]
  • OBS Studio自动化实践:利用脚本批量生成录制场景
    本文探讨了如何利用OBS Studio进行高效录屏,并通过脚本实现场景的自动生成。适合对自动化办公感兴趣的读者。 ... [详细]
  • 分层学习率衰减在NLP预训练模型中的应用
    本文探讨了如何通过分层学习率衰减技术来优化NLP预训练模型的微调过程,特别是针对BERT模型。通过调整不同层的学习率,可以有效提高模型性能。 ... [详细]
  • 本文详细介绍了在尝试启动MySQL服务时,如果遇到错误提示‘MySQL未运行,但锁定文件(/var/lock/subsys/mysql)存在’应如何处理,包括具体的操作步骤和可能的原因分析。 ... [详细]
  • 在日常生活中,支付宝已成为不可或缺的支付工具之一。本文将详细介绍如何通过支付宝实现免费提现,帮助用户更好地管理个人财务,避免不必要的手续费支出。 ... [详细]
  • 如何在PyCharm中配置Python脚本的默认模板
    本文介绍如何在PyCharm中设置Python脚本的默认模板,以便每次创建新的.py文件时自动填充预设内容,提高开发效率。 ... [详细]
  • JUnit下的测试和suite
    nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]
  • 问题描述现在,不管开发一个多大的系统(至少我现在的部门是这样的),都会带一个日志功能;在实际开发过程中 ... [详细]
author-avatar
youstar
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有