mysql编码utf8_MySQL字符集编码utf8和utf8mb4的区别

作者：315热点关注 | 来源：互联网 | 2023-09-05 16:00

备注：本文修订于2020年7月1日1、字符编码utf8和utf8mb4的历史渊源UTF-8编码是一种变长的编码机制，可以用1~4个字节存储字符。但是&#

备注&＃xff1a;本文修订于2020年7月1日

1、字符编码utf8和utf8mb4的历史渊源

UTF-8 编码是一种变长的编码机制&＃xff0c;可以用 1 ~ 4 个字节存储字符。但是&＃xff0c;因为历史遗留问题&＃xff0c;MySQL 中的 utf8 编码并不是真正的 UTF-8&＃xff0c;而是阉割版的&＃xff0c;最长只有3个字节。当遇到占4个字节的 UTF-8 编码&＃xff0c;例如 emoji 字符或者复杂的汉字&＃xff0c;会导致存储异常。

MySQL 在 5.5.3 之后增加了 utf8mb4 编码&＃xff0c;mb4 就是 most bytes 4 的意思&＃xff0c;专门用来兼容四字节的 unicode。好在 utf8mb4 是 utf8 的超集&＃xff0c;除了将编码改为 utf8mb4 外&＃xff0c;不需要做其他转换。当然&＃xff0c;为了节省空间&＃xff0c;一般情况下使用 utf8 也就够了。

既然 utf8 能够存下大部分中文汉字&＃xff0c;那为什么还要使用 utf8mb4 呢&＃xff1f;原来 MySQL 支持的 utf8 编码最大字符长度为 3 字节&＃xff0c;如果遇到 4 字节的宽字符就会插入异常了。

三个字节的 UTF-8 最大能编码的 Unicode 字符是 0xffff&＃xff0c;也就是 Unicode 中的基本多文种平面(BMP)。也就是说&＃xff0c;任何不在基本多文本平面的 Unicode 字符&＃xff0c;都无法使用 MySQL 的 utf8 字符集存储。包括 Emoji 表情(Emoji 是一种特殊的 Unicode 编码&＃xff0c;常见于 ios 和 android 手机上)和很多不常用的汉字&＃xff0c;以及任何新增的 Unicode 字符等等。

2、字符编码utf8和utf8mb4的特点

utf8 编码特点&＃xff1a;

(1)最大字符长度为 3 字节&＃xff0c;如果遇到 4 字节的字符就会出现错误了。

(2)无法存贮表情和不常用汉字

(3)消耗空间比 utf8mb4 少

utf8mb4 编码特点&＃xff1a;

(1)最大字符长度为4字节

(2)对于 CHAR 类型数据&＃xff0c;存储会多消耗一些空间。

(3)多了表情的支持

3、字符排序

字符除了需要存储&＃xff0c;还需要排序或比较大小。推荐用 utf8mb4_unicode_ci&＃xff0c;但是用 utf8mb4_general_ci 也没啥问题。

其实&＃xff0c;utf8mb4_unicode_ci 和 utf8mb4_general_ci 对于中文和英文来说&＃xff0c;其实是没有任何区别的。对于我们开发的国内使用的系统来说&＃xff0c;随便选哪个都行。只是对于某些西方国家的字母来说&＃xff0c;utf8mb4_unicode_ci 会比 utf8mb4_general_ci 更符合他们的语言习惯一些&＃xff0c;general 是 MySQL 一个比较老的标准了。

MySQL 8.0 默认的是 utf8mb4_0900_ai_ci&＃xff0c;属于 utf8mb4_unicode_ci 中的一种&＃xff0c;具体含义如下&＃xff1a;

(1)uft8mb4 表示用 utf8mb4 编码方案&＃xff0c;每个字符最多占4个字节。

(2)0900 指的是 Unicode 校对算法版本。(Unicode归类算法是用于比较符合Unicode标准要求的两个Unicode字符串的方法)。

(3)ai 指的是口音不敏感。也就是说&＃xff0c;排序时e&＃xff0c;è&＃xff0c;é&＃xff0c;ê和ë之间没有区别。ci 表示不区分大小写。也就是说&＃xff0c;排序时p和P之间没有区别。备注&＃xff1a;

如果需要重音灵敏度和区分大小写&＃xff0c;则可以使用 utf8mb4_0900_as_cs 代替。

扩展阅读

推荐阅读

hash
二维码的实现与应用

本文介绍了二维码的基本概念、分类及其优缺点，并详细描述了如何使用Java编程语言结合第三方库（如ZXing和qrcode.jar）来实现二维码的生成与解析。 ... [详细]

蜡笔小新 2024-11-21 17:10:15
web
JavaScript 实现图片文件转Base64编码的方法

本文详细介绍了如何使用JavaScript将用户通过文件输入控件选择的图片文件转换为Base64编码字符串，适用于Web前端开发中图片上传前的预处理。 ... [详细]

蜡笔小新 2024-11-19 12:43:15
ascii
首部|接口类型_OSI 7层模型 & TCP/IP协议首部封装格式解析

首部|接口类型_OSI 7层模型 & TCP/IP协议首部封装格式解析 ... [详细]

蜡笔小新 2024-11-17 18:56:46
ascii
逐日 30 秒 ⏱ 字符编码排雷录

简介字符编码、字符长度毛病、截取字符毛病、UTF8、Unicode计算机重重底层之下都是由0和1组合，然则你晓得他们是怎样一步步变成字符串的嘛？在我们实际生活中最罕见的例子能够经由 ... [详细]

蜡笔小新 2023-10-13 10:22:30
heap
深入解析WebP图片格式及其应用

随着互联网技术的发展，无论是PC端还是移动端，图片数据流量占据了很大比重。尤其在高分辨率屏幕普及的背景下，如何在保证图片质量的同时减少文件大小，成为了亟待解决的问题。本文将详细介绍Google推出的WebP图片格式，探讨其在实际项目中的应用及优化策略。 ... [详细]

蜡笔小新 2024-11-20 16:31:47
input
c语言二元插值,二维线性插值c语言

c语言二元插值,二维线性插值c语言 ... [详细]

蜡笔小新 2024-11-20 12:20:16
flutter
Flutter 核心技术与混合开发模式深入解析

本文深入探讨了 Flutter 的核心技术，特别是其混合开发模式，包括统一管理模式和三端分离模式，以及混合栈原理。通过对比不同模式的优缺点，帮助开发者选择最适合项目的混合开发策略。 ... [详细]

蜡笔小新 2024-11-19 13:48:51
web
Android系统架构详解及关闭方法

本文详细介绍了Android系统的四层架构，包括应用程序层、应用框架层、库与Android运行时层以及Linux内核层，并提供了如何关闭Android系统的步骤。 ... [详细]

蜡笔小新 2024-11-19 09:04:28
uri
HTML5 Canvas 图片导出与上传至远程服务器的方法

在现代Web开发中，HTML5 Canvas常用于图像处理和绘图任务。本文将详细介绍如何将Canvas中的图像导出并上传至服务器，适用于拼图、图片编辑等场景。 ... [详细]

蜡笔小新 2024-11-18 18:04:32
web
Java中的引用类型详解

本文详细介绍了Java中的引用类型，包括强引用、软引用、弱引用和虚引用的特点和应用场景。 ... [详细]

蜡笔小新 2024-11-18 10:12:58
text
解决网页乱码问题的实用方法

网页乱码问题在开发中较为常见，主要由文件编码、程序字符集设置和数据库连接字符集设置不当引起。本文将详细介绍如何逐一排查并解决这些问题。 ... [详细]

蜡笔小新 2024-11-16 19:06:29
list
深入解析 Redis 的数据结构与对象系统

Redis 是一个高性能的开源键值存储系统，支持多种数据结构。本文将详细介绍 Redis 中的六种底层数据结构及其在对象系统中的应用，包括字符串对象、列表对象、哈希对象、集合对象和有序集合对象。通过12张图解，帮助读者全面理解 Redis 的数据结构和对象系统。 ... [详细]

蜡笔小新 2024-11-16 17:48:35
web
开发笔记:前端之前端初识

开发笔记:前端之前端初识 ... [详细]

蜡笔小新 2024-11-16 16:05:59
main
OpenGLPBO

PBO(PixelBufferObject),将像素数据存储在显存中。优点：1、快速的像素数据传递，它采用了一种叫DMA（DirectM ... [详细]

蜡笔小新 2024-11-15 14:56:34
blob
程序员学习数据库安装教程中必会MySQL使用规范手册

一个平台或系统随着时间的推移和用户量的增多，数据库操作往往会变慢；而在Java应用开发中数据库更是尤为重要，绝大多数情况下数据库的性能决定 ... [详细]

蜡笔小新 2023-10-13 10:53:48

315热点关注

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章