当前位置: 开发笔记 > 运维 > 正文

浅谈Java中Unicode的编码和实现

作者：mobiledu2502918317 | 来源：互联网 | 2021-08-14 03:09

这篇文章向大家介绍了Java编程中Unicode编码及实现的相关内容，列举了几个字符不同表达式的比较，以及Unicode平面映射的知识，具有一点点参考价值，需要的朋友可以了解下。

Unicode的编码和实现

大概来说，Unicode编码系统可分为编码方式和实现方式两个层次。

编码方式

字符是抽象的最小文本单位。它没有固定的形状（可能是一个字形），而且没有值。“A”是一个字符，“€”也是一个字符。字符集是字符的集合。编码字符集是一个字符集，它为每一个字符分配一个唯一数字。

Unicode 最初设计是作为一种固定宽度的 16 位字符编码。也就是每个字符占用2个字节。这样理论上一共最多可以表示216（即65536）个字符。上述16位统一码字符构成基本多文种平面。基本多文种平面的字符的编码为U+hhhh，其中每个h代表一个十六进制数字。

很明显，16 位编码的所有 65，536 个字符并不能完全表示全世界所有正在使用或曾经使用的字符。于是，Unicode 标准已扩展到包含多达 1，112，064 个字符。那些超出原来的 16 位限制的字符被称作增补字符。Unicode 标准 2.0 版是第一个包含

启用增补字符设计的版本，但是，直到 3.1 版才收入第一批增补字符集。

Unicode字符平面映射

目前的Unicode字元分为17组编排，每组称为平面（Plane），而每平面拥有65536（即216）个代码点。然而目前只用了少数平面。

平面	始末字元值	中文名称	英文名称
0号平面	U+0000 - U+FFFF	基本多文种平面	Basic Multilingual Plane,简称BMP
1号平面	U+10000 - U+1FFFF	多文种补充平面	Supplementary Multilingual Plane,简称SMP
2号平面	U+20000 - U+2FFFF	表意文字补充平面	Supplementary Ideographic Plane,简称SIP
3号平面	U+30000 - U+3FFFF	表意文字第三平面（未正式使用）	Tertiary Ideographic Plane,简称TIP
4号平面至 13号平面	U+40000 - U+DFFFF	（尚未使用）
14号平面	U+E0000 - U+EFFFF	特别用途补充平面	Supplementary Special-purpose Plane,简称SSP
15号平面	U+F0000 - U+FFFFF	保留作为私人使用区（A区）	Private Use Area-A,简称PUA-A
16号平面	U+100000 - U+10FFFF	保留作为私人使用区（B区）	Private Use Area-B,简称PUA-B

增补字符是代码点在 U+10000 至 U+10FFFF 范围之间的字符（上述表格中1号平面~16号平面之间的），也就是那些使用原始的 Unicode 的 16 位设计无法表示的字符。从 U+0000 至 U+FFFF 之间的字符集有时候被称为基本多语言面（BMP）。因此，每一个 Unicode 字符要么属于 BMP，要么属于增补字符。

实现方式

UTF-32、UTF-16 和 UTF-8 是具体的实现方案。Unicode的实现方式不同于编码方式。一个字符的Unicode编码是确定的。但是在实际传输过程中，由于不同系统平台的设计不一定一致，以及出于节省空间的目的，对Unicode编码的实现方式有所不同。Unicode的实现方式称为Unicode转换格式（Unicode Transformation Format，简称为UTF）。

例如，如果一个仅包含基本7位ASCII字符的Unicode文件，如果每个字符都使用2字节的原Unicode编码传输，其第一字节的8位始终为0。这就造成了比较大的浪费。对于这种情况，可以使用UTF-8编码，这是一种变长编码，它将基本7位ASCII字符仍用7位编码表示，占用一个字节（首位补0）。而遇到与其他Unicode字符混合的情况，将按一定算法转换，每个字符使用1-3个字节编码，并利用首位为0或1进行识别。这样对以7位ASCII字符为主的西文文档就大幅节省了编码长度（具体方案参见UTF-8）。类似的，对未来会出现的需要4个字节的辅助平面字符和其他UCS-4扩充字符，2字节编码的UTF-16也需要通过一定的算法进行转换。

再如，如果直接使用与Unicode编码一致（仅限于BMP字符）的UTF-16编码，由于每个字符占用了两个字节，在麦金塔电脑（Mac）机和个人电脑上，对字节顺序的理解是不一致的。这时同一字节流可能会被解释为不同内容，如某字符为十六进制编码4E59，按两个字节拆分为4E和59，在Mac上读取时是从低字节开始，那么在Mac OS会认为此4E59编码为594E，找到的字符为“奎”，而在Windows上从高字节开始读取，则编码为U+4E59的字符为“乙”。就是说在Windows下以UTF-16编码保存一个字符“乙”，在Mac OS环境下打开会显示成“奎”。此类情况说明UTF-16的编码顺序若不加以人为定义就可能发生混淆，于是在UTF-16编码实现方式中使用了大端序（Big-Endian，简写为UTF-16 BE）、小端序（Little-Endian，简写为UTF-16 LE）的概念，以及可附加的字节顺序记号解决方案，目前在PC机上的Windows系统和Linux系统对于UTF-16编码默认使用UTF-16 LE。（具体方案参见UTF-16）

此外Unicode的实现方式还包括UTF-7、Punycode、CESU-8、SCSU、UTF-32、GB18030等，这些实现方式有些仅在一定的国家和地区使用，有些则属于未来的规划方式。目前通用的实现方式是UTF-16小端序（LE）、UTF-16大端序（BE）和UTF-8。在微软公司Windows XP附带的记事本（Notepad）中，“另存为”对话框可以选择的四种编码方式除去非Unicode编码的ANSI（对于英文系统即ASCII编码，中文系统则为GB2312或Big5编码）外，其余三种为“Unicode”（对应UTF-16 LE）、“Unicode big endian”（对应UTF-16 BE）和“UTF-8”。

代码点、码位

在字符编码术语中，码位或称编码位置，即英文的code point或code position，是组成码空间（或代码页）的数值。例如，ASCII码包含128个码位，范围是016进制到7F16进制，扩展ASCII码包含256个码位，范围是016进制到FF16进制，而Unicode包含1,114,112个码位，范围是016进制到10FFFF16进制。Unicode码空间划分为17个Unicode字符平面（基本多文种平面，16个辅助平面），每个平面有65,536（= 216）个码位。因此Unicode码空间总计是17 × 65,536 = 1,114,112.

代码单元、码元

码元（Code Unit，也称“代码单元”）是指一个已编码的文本中具有最短的比特组合的单元。对于UTF-8来说，码元是8比特长；对于UTF-16来说，码元是16比特长；对于UTF-32来说，码元是32比特长。码值（Code Value）是过时的用法。
明白了上述两个概念，我们就可以认为UTF-N（N为8,16,32）干的事就是把Unicode字符集的抽象码位映射为N位长的整数（即码元）的序列，用于数据存储或传递。

UTF-32 即将每一个 Unicode 代码点表示为相同值的 32 位整数。很明显，它是内部处理最方便的表达方式，但是，如果作为一般字符串表达方式，则要消耗更多的内存。

UTF-16 使用一个或两个未分配的 16 位代码单元的序列对 Unicode 代码点进行编码。值 U+0000 至 U+FFFF 编码为一个相同值的 16 位单元。增补字符编码为两个代码单元，第一个单元来自于高代理范围（U+D800 至 U+DBFF），第二个单元来自于低代理范围（U+DC00 至 U+DFFF）。这在概念上可能看起来类似于多字节编码，但是其中有一个重要区别：值 U+D800 至 U+DFFF 保留用于 UTF-16；没有这些值分配字符作为代码点。这意味着，对于一个字符串中的每个单独的代码单元，软件可以识别是否该代码单元表示某个单单元字符，或者是否该代码单元是某个双单元字符的第一个或第二单元。这相当于某些传统的多字节字符编码来说是一个显著的改进，在传统的多字节字符编码中，字节值 0x41 既可能表示字母“A”，也可能是一个双字节字符的第二个字节。

UTF-8 使用一至四个字节的序列对编码 Unicode 代码点进行编码。U+0000 至 U+007F 使用一个字节编码，U+0080 至 U+07FF 使用两个字节，U+0800 至 U+FFFF 使用三个字节，而 U+10000 至 U+10FFFF 使用四个字节。UTF-8 设计原理为：字节值 0x00 至 0x7F 始终表示代码点 U+0000 至 U+007F（Basic Latin 字符子集，它对应 ASCII 字符集）。这些字节值永远不会表示其他代码点，这一特性使 UTF-8 可以很方便地在软件中将特殊的含义赋予某些 ASCII 字符。

下表所示为几个字符不同表达方式的比较：

Unicode 代码点

U+0041

U+00DF

U+6771

U+10400

表示字形

UTF-32 代码单元

00000041

000000DF

00006771

00010400

UTF-16 代码单元

0041

00DF

6771

D801

DC00

UTF-8 代码单元

注：上述编码中的数字均是十六进制表示的。

总结

以上就是本文关于浅谈Java中Unicode的编码和实现的全部内容，希望对大家有所帮助。感兴趣的朋友可以继续参阅本站：Java编程将汉字转Unicode码代码示例、Java源码解析之object类等，如有不足之处，欢迎留言指出。感谢朋友们对本站的支持！

推荐阅读

linux
从迷茫到收获：阿里腾讯实习Offer的求取之路

本文回顾了作者在求职阿里和腾讯实习生过程中，从最初的迷茫到最后成功获得Offer的心路历程。文中不仅分享了个人的面试经历，还提供了宝贵的面试准备建议和技巧。 ... [详细]

蜡笔小新 2024-11-22 19:32:32
linux
春季职场跃迁指南：如何高效利用金三银四跳槽季

随着每年的‘金三银四’跳槽高峰期的到来，许多职场人士都开始考虑是否应该寻找新的职业机会。本文将探讨如何制定有效的职业规划、撰写吸引人的简历以及掌握面试技巧，助您在这关键时期成功实现职场跃迁。 ... [详细]

蜡笔小新 2024-11-22 19:18:22
linux
CentOS 服务器自定义密码策略

随着Linux操作系统的广泛使用，确保用户账户及系统安全变得尤为重要。用户密码的复杂性直接关系到系统的整体安全性。本文将详细介绍如何在CentOS服务器上自定义密码规则，以增强系统的安全性。 ... [详细]

蜡笔小新 2024-11-22 19:15:42
linux
吴石访谈：腾讯安全科恩实验室如何引领物联网安全研究

腾讯安全科恩实验室曾两次成功破解特斯拉自动驾驶系统，并远程控制汽车，展示了其在汽车安全领域的强大实力。近日，该实验室负责人吴石接受了InfoQ的专访，详细介绍了团队未来的重点方向——物联网安全。 ... [详细]

蜡笔小新 2024-11-22 13:27:32
linux
Ubuntu系统下的GIF动画录制解决方案

在撰写文章或教程时，GIF动态图能够有效地传达信息。对于Windows用户而言，ScreenToGif是一款非常实用的工具。而在Ubuntu系统中，用户同样拥有多种选择来创建GIF动画，本文将重点介绍两款录屏工具——Byzanz和Peek。 ... [详细]

蜡笔小新 2024-11-22 13:24:34
linux
网络流24题——试题库问题

题目描述：假设一个试题库中有n道试题。每道试题都标明了所属类别。同一道题可能有多个类别属性。现要从题库中抽取m道题组成试卷。并要求试卷包含指定类型的试题。试设计一个满足要求的组卷算 ... [详细]

蜡笔小新 2024-11-22 11:33:55
dns
一文详解Linux

Linuxnetfilter与VRF实验环境如下图所示：配置如下：#!binbashsudoipnetnsaddns1sudoiplinkaddns1veth1typevethpe ... [详细]

蜡笔小新 2024-11-22 16:56:09
linux
Ubuntu 14.04 环境下搭建 Caffe（仅限 CPU）

本文详细介绍了如何在 Ubuntu 14.04 系统上搭建仅使用 CPU 的 Caffe 深度学习框架，包括环境准备、依赖安装及编译过程。 ... [详细]

蜡笔小新 2024-11-22 16:43:30
linux
如何在Win10系统下通过VMware 14 Pro安装CentOS 7

本文详细介绍了在Windows 10操作系统中使用VMware Workstation 14 Pro搭建CentOS 7虚拟环境的步骤，包括所需工具、安装过程及系统配置等。 ... [详细]

蜡笔小新 2024-11-22 12:35:03
linux
如何安装FARO Scene 2018？详尽的永久授权指南

FARO Scene 2018 是一款专为专业用户设计的3D点云处理与管理软件。该软件支持从高精度3D激光扫描设备获取的大规模3D扫描数据的查看、管理和处理。本文将详细介绍如何安装及激活FARO Scene 2018的永久许可。 ... [详细]

蜡笔小新 2024-11-22 10:36:17
负载均衡
为何Compose与Swarm之后仍有Kubernetes的诞生？

探讨在已有Compose和Swarm的情况下，Kubernetes是如何以其独特的设计理念和技术优势脱颖而出，成为容器编排领域的领航者。 ... [详细]

蜡笔小新 2024-11-22 09:26:11
负载均衡
使用 Python3 和 sqlacodegen 从现有数据库生成 ORM Model 文件

本文介绍了如何通过安装 sqlacodegen 和 pymysql 来根据现有的 MySQL 数据库自动生成 ORM 的模型文件（model.py）。此方法适用于需要快速搭建项目模型层的情况。 ... [详细]

蜡笔小新 2024-11-22 01:13:04
curl
如何在Windows 7 64位系统中成功注册DLL文件

本文详细介绍了在Windows 7 64位系统中注册DLL文件的具体步骤，包括使用管理员权限运行命令提示符以及正确的路径导航方法，确保注册过程顺利进行。 ... [详细]

蜡笔小新 2024-11-21 20:50:35
curl
程序员的精神世界与职业追求

本文探讨了程序员这一职业的本质，认为他们是专注于问题解决的专业人士。文章深入分析了他们的日常工作状态、个人品质以及面对挑战时的态度，强调了编程不仅是一项技术活动，更是个人成长和精神修炼的过程。 ... [详细]

蜡笔小新 2024-11-21 18:56:08
curl
UVALive 8201 - BBP 公式计算圆周率

在1995年，Simon Plouffe 发现了一种特殊的求和方法来表示某些常数。两年后，Bailey 和 Borwein 在他们的论文中发表了这一发现，这种方法被命名为 Bailey-Borwein-Plouffe (BBP) 公式。该问题要求计算圆周率 π 的第 n 个十六进制数字。 ... [详细]

蜡笔小新 2024-11-21 18:32:57

mobiledu2502918317

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章