精确解释Unicode

作者：拍友2502882883 | 来源：互联网 | 2023-09-11 18:53

来自：http:blog.csdn.netgqqnbarticledetails6266542我决心了解一下编码知识——主要是Unicode——及相关概念，搜索阅读了网上的很多文章

来自：http://blog.csdn.net/gqqnb/article/details/6266542

--------------------------------------------------------------

我决心了解一下编码知识——主要是Unicode——及相关概念，搜索阅读了网上的很多文章，明白了一些，另一些却很模糊，而且有一些不同文章的描述是冲突的！我因此查阅了很多网上的资料，主要有中英文维基百科和Unicode.org，终于明白了其中的奥妙。

独乐乐不如众乐乐，我因此撰此文帮助大家最大程度地厘清Unicode、UCS、UTF-8、UTF-16、UCS-2、UCS-4之间的关系。对于网上随手可得的资料，如ASCII码表、UTF-16算法的程序代码，则不是本文重点。

网上其他文章概念模糊、说法冲突，我觉得一是上述词语本身就具有多重含义，很难把握；二可能是作者本身理解不到位，含糊了过去；三可能是那些文章缺少精确的表达方式，很容易使人误解。于是，我选择了用数学及程序代码相结合的方式，试图给予最清晰的定义。

我水平亦有限，哪里理解不到位或表达不清楚，希望读者不吝赐教。

这里格式我不修改了，嫌格式不漂亮的朋友可去https://docs.google.com/viewer?a=v&pid=explorer&chrome=true&srcid=0B92-FAjNvVzGNGQxNGI2MzctZGJlMC00YzhmLTg3MWItMGI0MWVhOTM4M2I4&hl=zh_CN 获取PDF版。

基本概念
字符是文字与符号的总称，包括文字、图形符号、数学符号等。字符集是字符的集合。

（字符）编码当名词用，是一个从一指定字符集到一指定集合的函数，如果用程序代码¹来表示，可以写作Encoding。

编码当动词用，是建立一个从一指定字符集到一指定集合的函数。例如将汉字对应到整数（Encoding），将英文字母对应到可在电线中传输的电脉冲（Encoding电脉冲模式>）。

如果字符编码特化为Encoding，即字符转换为整数，则成为编码字符集（函数是特殊的集合）。很多文章上说的字符集其实是编码字符集。

码点是编码字符集的上域²中的一个元素。

为了本文的叙述方便，额外定义几条表达方式。

编码字符集有以下属性：

字库³：ASCII的字库是英文字母+数字+其他一些符号 1

编码长度⁴：ASCII的编码长度是7个二进制位。编码长度≤表示长度 2

表示长度⁵：ASCII的表示长度是8个二进制位（最高位为0） 3

编码字符集ASCII中字符A的编码数字是65。⁶ 4

编码字符集ASCII中字符A的二进制流是01000001。相应地，十六进制流是41，十进制流是65。与编码数字不同，N进制流要开头补0，以达到表示长度。 5

常见的编码字符集
GB2312是简体字集，全称为GB2312(80)字集，共包括国标简体汉字6763个。

BIG5大五码是台湾繁体字集，共包括国标繁体汉字13053个。

GBK是简繁字集，包括了GB字集、BIG5字集和一些符号，共包括21003个字符。

GB18030是国家制定的一个强制性大字集标准，全称为GB18030-2000，它的推出使汉字集有了一个“大一统”的标准。

ASCII

我们知道，在计算机内部，所有的信息最终都表示为一个二进制的字符串。每一个二进制位有0和1两种状态，因此八个二进制位就可以组合出 256种状态，这被称为一个字节。也就是说，一个字节一共可以用来表示256种不同的状态，每一个状态对应一个符号，就是256个符号，从 0000000到11111111。

上个世纪60年代，美国制定了一套字符编码，对英语字符与二进制位之间的关系，做了统一规定。这被称为ASCII码，一直沿用至今。

ASCII的字库包括128个字符，比如空格（SPACE）的编码数字是32，二进制流是00100000。这128个字符（包括32个不能打印出来的控制符号），只占用了一个字节的后面7位，最前面的1位统一规定为0。

在电线里传输被ASCII编码的二进制流时，为了检验错误，会修改最高位，用来做奇偶校验。这利用了ASCII本身的性质（最高位都是0）。

UCS

ISO10646标准所定义的通用字符集（Universal Character Set），编码长度可达32位。

Unicode

Unicode是一种正在发展的编码字符集，由统一码联盟制定，希望将全世界常用文字都函括进去。Unicode兼容ASCII。⁷即ASCII中有的字符Unicode中都有，并且对应相同的编码数字。

Unicode编码长度可达到32位，即4字节。第一字节称为组，第二字节称为面，第三字节称为行，第四字节称为点。第0组第0面里的字符可以只用2个字节表示，且涵盖了绝大部分的常用字，所以备受青睐。为了方便称呼，Unicode给它了一个名称——基本多文种平面（BMP）。基本多文种平面值域和上域都是0到FFFF，共计65535个码点。⁸ ⁹基本多文种平面是Unicode的子集。

虽然Unicode的表示长度是32位，但因为通常表示的是常用字，且常用字在BMP的字库里，所以表示长度往往缩减为16位。

Unicode与UCS的关系

ISO与统一码联盟是两个不同的组织，最初制定了不同的标准；但后来两个组织制定的编码字符集相互兼容。¹⁰现在往往只说Unicode，UCS这个名词不常见。

转换格式
以上说的都只是编码字符集——字符到整数的函数。虽然表示长度往往是8的倍数，却没有规定二进制流应该如何放入到几个字节里去。

比如，Unicode中字符“严”的十六进制流是4E25（缩减了的表示长度），是直接保存为两个字节4E和25呢，还是经过一些运算再保存呢？

读者可能觉得这个问题很无聊。我们已经知道，英文字母只用一个字节表示就够了，如果每个符号用两个或四个字节表示，那么每个英文字母前都必然有二到四个字节是0，这对于存储来说是极大的浪费，文本文件的大小会因此大出二三倍，这是无法接受的。

UTF正是为了解决这个问题而诞生的。UTF全称为Unicode Translation Format（Unicode转换格式）。

转换格式是一个从二进制流集合到字节数组的集合的函数，可以写作Encoding。又二进制流可以计算为数字，转换格式可以写作Encoding。

UTF-8

UTF-8是一种变长转换格式。它使用1~4个字节表示一个符号，根据不同的二进制流而改变字节长度。

UTF-8的规则很简单，只有二条：

对于单字节的符号，字节的第一位设为0，后面7位为这个符号的Unicode码。因此对于同一个英语字母在UTF-8下和在ASCII码下的像¹¹是相同的。
对于n字节的符号（n>1），第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的二进制位用来从后往前放置这个符号的二进制流。

下表总结了编码规则，字母x表示用来放置二进制码的位置。

Unicode码点	像（二进制）
0000 0000 - 0000 007F	0xxxxxxx
0000 0080 - 0000 07FF	110xxxxx 10xxxxxx
0000 0800 - 0000 FFFF	1110xxxx 10xxxxxx 10xxxxxx
0001 0000 - 0010 FFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

UTF-16

UTF-16的编码方法¹²是：

如果二进制流b小于0x10000，也就是十进制的0到65535之内，则直接使用两字节表示。
如果二进制流b大于等于0x10000，将b-0x10000的结果中的前 10 位作为高位和0xD800进行逻辑或操作，将后10 bit作为低位和0xDC00做逻辑或操作，这样组成的4个字节就构成了b的编码。

举个例子。假设要算（U+2A6A5，四个繁体字龙）¹³在UTF-16下的像，因为它超过 U+FFFF，所以 2A6A5-10000=0x1A6A5=。

前10位0001 1010 01 | 0xD800 = 0xD896。

后10位10 1010 0101 | 0xDC00 = 0xDEA5。

所以U+ 2A6A5 在UTF-16中的像是D8 96 DE A5。

UCS-2

UCS-2是ISO制定的，用来转换UCS的。但既然Unicode和UCS相互兼容，便也可以用来转换Unicode。

UCS-2是基本多文种平面的值域到两个成员的字节数组的集合的函数，即每个BMP码点都通过前面补0的方式固定地用两个字节表示。记得因为代理区的存在，一个码点并不代表一个字符。

UCS-2是UTF-16的子集，因为UTF-16额外规定了BMP以外的字节表示。

UCS-4

UCS-4是ISO制定的，用来转换UCS的。但既然Unicode和UCS相互兼容，便也可以用来转换Unicode。

UCS-4是Unicode中的头128组的值域到四个成员的字节数组的集合的函数，即每个码点都通过前面补0的方式固定地用四个字节表示。四个字节的范围是0到7FFFFFFF，即31个二进制位。

UTF-32

但是，ISO/IEC 10646已经宣布，今后所有的字符都将分配在10FFFF （即第0组头17个平面）以内，所以UCS-4的7FFFFFFF上限没有意义。¹⁴所以制定了UTF-32。

UTF-32是Unicode中第0组头17个平面的值域到四个成员的字节数组的集合的函数，即每个Unicode码点都通过前面补0的方式固定地用四个字节表示。

可见，UTF-32是UCS-4的子集，UCS-4包含UTF-32。¹⁵UCS-4已经没有使用的意义。

小结

转换格式	定义域	值域
UTF-8	0-10 FFFF 第0组头17平面的值域	1-4字节
UTF-16	0-10FFFF 第0组头17平面的值域	2或4字节
UCS-2	0-FFFF 基本多文种平面的值域	2字节
UCS-4	0-7FFFFFFF 头128组的值域	4字节
UTF-32	0-10 FFFF 第0组头17平面的值域	4字节

* 缩进代表包含关系。

现在若有软件声称自己支持UCS-2，那其实是暗指它不能支持在UTF-16中超过2字节的符号。¹⁶

字节存储的顺序
一个字符，通过Unicode，得到了二进制流；二进制流通过转换格式，得到了几个字节。那么这几个字节是由低位到高位（即低位在前）写入硬盘呢，还是由高位到低位（即高位在前）写入硬盘呢？这就是字节存储的顺序问题，即字节序问题。

为什么不统一地都由低位到高位或由高位到低位呢？因为设备执行不同的任务时，这两种方式的性能有差别。为了最大地提升性能，设备的硬件实现根据其最常做的任务决定了字节序。

Unicode规范中用字节序标记字符（BOM）来标识字节序，它的编码是FEFF。这样如果接收者收到FEFF，就表明这个字节流是高位在前的；如果收到FFFE，就表明这个字节流是低位在前的。

这里相当于有一个从byte[]和BOM到byte[]的字节序函数（b(byte[],bom):byte[]），给定几个字节和字节序，该函数就能算出这几个字节存往硬盘的顺序。

至此，计算机屏幕上显示的字符保存到硬盘上的过程已经清晰了：

对该字符c应用编码字符集，结果为n。

Encoding(c) → n

对整数n应用转换格式，结果为。

Encoding(n) → bytes

对应用字节序函数，结果为硬盘上的字节数组。

b(bytes,bom) → bytesInDisk

UTF-8有严格的字节顺序，不需要BOM。但如果在字节流前面加上BOM在UTF-8下的像EF BB BF，接收者一收到就知道这是UTF-8编码。所以用UTF-8格式存储，仍然会往文件头写EF BB BF，以表明其转换方法。

UTF-16、UCS-2、UCS-4、UTF-32都没有严格的顺序，所以需要借助BOM。

复合函数
数学上的复合函数是一个函数。若g(x)、f(x)是函数，则g(f(x))是复合函数。

编码字符集ASCII因为不需要转换格式¹⁷、没有字节序的问题，所以ASCII又是：

编码字符集ASCII与转换格式的复合函数（转换格式不作任何事）

编码字符集ASCII、转换格式与字节序函数的复合函数（转换格式和字节序函数不作任何事）

UTF-8第一条规则用的就是上面的第一个含义。

UTF-16BE和UTF-16LE，是转换格式UTF-16与高位在前或低位在前的复合。UTF-16BE有时缩写为UTF-16，注意，这与转换格式UTF-16是不同的！¹⁸

UCS-2BE和UCS-2LE，是转换格式UCS-2与高位在前或低位在前的复合。UCS-2BE有时缩写为UCS-2。注意，这与转换格式UCS-2是不同的！³

UCS-4BE和UCS-4LE，是转换格式UCS-4与高位在前或低位在前的复合。UCS-4BE有时缩写为UCS-4。注意，这与转换格式UCS-4是不同的！³

UTF-32BE和UTF-32LE，是转换格式UTF-32与高位在前或低位在前的复合。UTF-32BE有时缩写为UTF-32。注意，这与转换格式UTF-32是不同的！¹⁹

名称

编码次序

字节存储顺序

BOM

朱

，

聿

UTF-16LE

低位在前

无

31 67

2C 00

7F 80

69 D8 A5 DE

UTF-16BE

高位在前

无

67 31

00 2C

80 7F

D8 69 DE A5

UTF-16

低位在前，包含BOM

FF FE

31 67

2C 00

7F 80

69 D8 A5 DE

UTF-16

高位在前，包含BOM

FE FF

67 31

00 2C

80 7F

D8 69 DE A5

Windows记事本中的编码

我们在Windows系统中保存文本文件时通常可以选择编码为ANSI、Unicode、Unicode big endian和UTF-8。已知Unicode是编码字符集，big endian是一种字节序，UTF-8是转换格式。这三种不同的东西放在一起，是什么意思呢？答案是复合函数。

请看实验！我将字符用这四种选项分别保存，然后查看其16进制代码。记得这个字的二进制流是2A6A5，在UTF-16中的像是D8 96 DE A5。读者可以练习一下计算2A6A5在UTF-8下的像。

选项	编码字符集	转换格式	字节存储的顺序
ANSI	英文文件：ASCII	直接表示	直接存储
	简体中文系统：GB2312
	繁体中文系统：Big5
Unicode	Unicode	UTF-16	低位在前
Unicode big endian	Unicode	UTF-16	高位在前
UTF-8	Unicode	UTF-8	直接存储

所以，以上四项都是复合函数，复合了编码字符集、二进制的字节表示和字节存储的顺序。

很多软件和文章中提到的Unicode、UTF-8之类的，都是这种复合。

爱让一切都对了

2011年3月213月21日月21日星期21日星期一日星期一

本文依照知识共享- 署名-相同方式共享3.0协议发表

技术分享

四个繁体字龙

1C#语法，依据.Net Framework 4.0

2编码字符集是函数，函数有值域。值域是上域的子集。Unicode中有些位置是保留区域，没有字符来对应，所以不属于值域，但属于上域。

3即函数的定义域。

4即值域的基数的二进制表示的位数。

5即上域的基数的二进制表示的位数。

6即字符A在编码字符集ASCII中的像是01000001。

7http://www.unicode.org/charts/PDF/U0000.pdf

8基本多文种平面里有个代理区，仅该区就可表达1048576个字符。

9http://blog.csdn.net/fcc_ecjtu/archive/2006/09/21/1261273.aspx

10对字符编码与Unicode,ISO 10646,UCS,UTF8,UTF16,GBK,GB2312的理解

11将UTF-16看成函数。设有函数f，则x在f下的是f(x)。若f(x)=2x+1，则3在f下的像是。

12http://zh.wikipedia.org/zh-cn/UTF-16

13文末有该字的图片。

14http://en.wikipedia.org/wiki/Universal_Character_Set#Encoding_forms_of_the_Universal_Character_Set。但正在请求来源。

15http://en.wikipedia.org/wiki/UTF-32/UCS-4

16http://codex.wordpress.org.cn/UTF-16

17作动词用。不同于上文的名词转换格式。

18根据Vim FencView插件。

19这是我的推理。

精确解释Unicode

推荐阅读

jsp
知识图谱——机器大脑中的知识库

本文介绍了知识图谱在机器大脑中的应用，以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例，说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案，如搜索关键词"Marie Curie"，会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革，不仅美国的微软必应，中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]

蜡笔小新 2023-12-14 10:06:19
function
基于layUI的图片上传前预览功能的2种实现方式

本文介绍了基于layUI的图片上传前预览功能的两种实现方式：一种是使用blob+FileReader，另一种是使用layUI自带的参数。通过选择文件后点击文件名，在页面中间弹窗内预览图片。其中，layUI自带的参数实现了图片预览功能。该功能依赖于layUI的上传模块，并使用了blob和FileReader来读取本地文件并获取图像的base64编码。点击文件名时会执行See()函数。摘要长度为169字。 ... [详细]

蜡笔小新 2023-12-14 17:06:58
int
HDU 2372 El Dorado（DP）的最长上升子序列长度求解方法

本文介绍了解决HDU 2372 El Dorado问题的一种动态规划方法，通过循环k的方式求解最长上升子序列的长度。具体实现过程包括初始化dp数组、读取数列、计算最长上升子序列长度等步骤。 ... [详细]

蜡笔小新 2023-12-14 15:08:18
int
求解hdu 1003 java题目的动态规划优化方法

本文讨论了如何优化解决hdu 1003 java题目的动态规划方法，通过分析加法规则和最大和的性质，提出了一种优化的思路。具体方法是，当从1加到n为负时，即sum(1,n)sum(n,s)，可以继续加法计算。同时，还考虑了两种特殊情况：都是负数的情况和有0的情况。最后，通过使用Scanner类来获取输入数据。 ... [详细]

蜡笔小新 2023-12-14 13:11:00
int
OC学习笔记之@property和@synthesize

本文介绍了OC学习笔记中的@property和@synthesize，包括属性的定义和合成的使用方法。通过示例代码详细讲解了@property和@synthesize的作用和用法。 ... [详细]

蜡笔小新 2023-12-14 12:05:06
text
后台获取视图对应的字符串

1.帮助类后台获取视图对应的字符串publicclassViewHelper{将View输出为字符串(注：不会执行对应的ac ... [详细]

蜡笔小新 2023-12-13 18:03:01
jsp
工程中添加Android Dependencies

在project.properties添加#Projecttarget.targetandroid-19android.library.reference.1..Sliding ... [详细]

蜡笔小新 2023-12-13 12:08:09
int
猜字母游戏

猜字母游戏猜字母游戏——设计数据结构猜字母游戏——设计程序结构猜字母游戏——实现字母生成方法猜字母游戏——实现字母检测方法猜字母游戏——实现主方法1猜字母游戏——设计数据结构1.1 ... [详细]

蜡笔小新 2023-12-13 12:04:03
int
lua语言闭包、模式匹配、日期、编译、模块的特性及应用

本文介绍了lua语言中闭包的特性及其在模式匹配、日期处理、编译和模块化等方面的应用。lua中的闭包是严格遵循词法定界的第一类值，函数可以作为变量自由传递，也可以作为参数传递给其他函数。这些特性使得lua语言具有极大的灵活性，为程序开发带来了便利。 ... [详细]

蜡笔小新 2023-12-14 18:18:21
int
《数据结构》学习笔记3——串匹配算法性能评估

本文主要讨论串匹配算法的性能评估，包括模式匹配、字符种类数量、算法复杂度等内容。通过借助C++中的头文件和库，可以实现对串的匹配操作。其中蛮力算法的复杂度为O(m*n)，通过随机取出长度为m的子串作为模式P，在文本T中进行匹配，统计平均复杂度。对于成功和失败的匹配分别进行测试，分析其平均复杂度。详情请参考相关学习资源。 ... [详细]

蜡笔小新 2023-12-13 16:16:05
jsp
ABAP开发发送邮件程序的配置和代码整理

本文介绍了通过ABAP开发往外网发邮件的需求，并提供了配置和代码整理的资料。其中包括了配置SAP邮件服务器的步骤和ABAP写发送邮件代码的过程。通过RZ10配置参数和icm/server_port_1的设定，可以实现向Sap User和外部邮件发送邮件的功能。希望对需要的开发人员有帮助。摘要长度：184字。 ... [详细]

蜡笔小新 2023-12-13 15:50:17
int
动态规划算法的基本步骤及最长递增子序列问题详解

本文详细介绍了动态规划算法的基本步骤，包括划分阶段、选择状态、决策和状态转移方程，并以最长递增子序列问题为例进行了详细解析。动态规划算法的有效性依赖于问题本身所具有的最优子结构性质和子问题重叠性质。通过将子问题的解保存在一个表中，在以后尽可能多地利用这些子问题的解，从而提高算法的效率。 ... [详细]

蜡笔小新 2023-12-13 15:38:19
jsp
Java验证码——kaptcha的使用配置及样式

本文介绍了如何使用kaptcha库来实现Java验证码的配置和样式设置，包括pom.xml的依赖配置和web.xml中servlet的配置。 ... [详细]

蜡笔小新 2023-12-13 13:58:25
int
高质量SQL书写的30条建议

本文提供了30条关于优化SQL的建议，包括避免使用select *，使用具体字段，以及使用limit 1等。这些建议是基于实际开发经验总结出来的，旨在帮助读者优化SQL查询。 ... [详细]

蜡笔小新 2023-12-13 13:24:33
int
指针的引用以及在什么情况下使用指针的引用

本文介绍了指针的概念以及在函数调用时使用指针作为参数的情况。指针存放的是变量的地址，通过指针可以修改指针所指的变量的值。然而，如果想要修改指针的指向，就需要使用指针的引用。文章还通过一个简单的示例代码解释了指针的引用的使用方法，并思考了在修改指针的指向后，取指针的输出结果。 ... [详细]

蜡笔小新 2023-12-13 12:54:29

拍友2502882883

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章

对该字符c应用编码字符集，结果为n。	Encoding(c) → n
对整数n应用转换格式，结果为。	Encoding(n) → bytes
对应用字节序函数，结果为硬盘上的字节数组。	b(bytes,bom) → bytesInDisk

名称	编码次序	字节存储顺序
名称	编码次序	BOM	朱	，	聿
UTF-16LE	低位在前	无	31 67	2C 00	7F 80	69 D8 A5 DE
UTF-16BE	高位在前	无	67 31	00 2C	80 7F	D8 69 DE A5
UTF-16	低位在前，包含BOM	FF FE	31 67	2C 00	7F 80	69 D8 A5 DE
UTF-16	高位在前，包含BOM	FE FF	67 31	00 2C	80 7F	D8 69 DE A5