Java的String类中提到的代码点,代码单元到底是什么?

作者：俣小沫-WU | 来源：互联网 | 2023-07-26 08:48

unicodeunicode是计算机科学领域里的一项业界标准，包括字符集、编码方案等。计算机采用八比特一个字节，一个字节最大整数是255，

unicode

unicode是计算机科学领域里的一项业界标准&＃xff0c;包括字符集、编码方案等。计算机采用八比特一个字节&＃xff0c;一个字节最大整数是255&＃xff0c;还要表示中文一个字也是不够的&＃xff0c;至少需要两个字节&＃xff0c;为了统一所有的文字编码&＃xff0c;unicode为每种语言中的每个字符设定了统一并且唯一的二进制编码&＃xff0c;通常用两个字节表示一个字符&＃xff0c;所以unicode每个平面可以组合出65535种不同的字符&＃xff0c;一共17个平面。

由于英文符号只需要用到低8位&＃xff0c;所以其高8位永远是0&＃xff0c;因此保存英文文本时会多浪费一倍的空间。

比如汉子“汉”的unicode,在java中输出

System.out.println("\u5B57");

UTF-8

unicode在计算机中如何存储呢&＃xff0c;就是用unicode字符集转换格式&＃xff0c;即我们常见的UTF-8、UTF-16等。

UTF-8就是以字节为单位对unicode进行编码&＃xff0c;对不同范围的字符使用不同长度的编码。

Unicode Utf-8

000000-00007F 0xxxxxxx
000080-0007FF 110xxxxx 10xxxxxx
000800-00FFFF 1110xxxx 10xxxxxx 10xxxxxx
010000-10FFFF 11110xxx10xxxxxx10xxxxxx10xxxxxx
Java中的String对象就是一个unicode编码的字符串。

java中想知道一个字符的unicode编码我们可以通过Integer.toHexString()方法

String str &＃61; "编";StringBuffer sb &＃61; new StringBuffer();char [] source_char &＃61; str.toCharArray();String unicode &＃61; null;for (int i&＃61;0;i

对应的utf-8编码是什么呢?

7f16在0800-FFFF之间&＃xff0c;所以要用3字节模板&＃xff1a;1110xxxx 10xxxxxx 10xxxxxx。
7f16写成二进制是&＃xff1a;0111 1111 0001 0110
按三字节模板分段方法分为0111 111100 010110&＃xff0c;代替模板中的x&＃xff0c;得到11100111 10111100 10010110&＃xff0c;即“编”对应的utf-8的编码是e7 bc 96&＃xff0c;占3个字节

codepoint

unicode的范围从000000 - 10FFFF&＃xff0c;char的范围只能是在\u0000到\uffff&＃xff0c;也就是标准的 2 字节形式通常称作 UCS-2&＃xff0c;在Java中&＃xff0c;char类型用UTF-16编码描述一个代码单元&＃xff0c;但unicode大于0x10000的部分如何用char表示呢&＃xff0c;比如一些emoji&＃xff1a;&＃x1f600;

java的char类型占两个字节&＃xff0c;想要表示&＃x1f600;这个表情就需要2个char&＃xff0c;看如下代码

String testCode &＃61; “ab\uD83D\uDE03cd”;
int length &＃61; testCode.length();
int count &＃61; testCode.codePointCount(0, testCode.length());
//length&＃61;6
//count&＃61;5
第三个和第四个字符合起来代表&＃x1f600;&＃xff0c;是一个代码点,
如果我们想取到每个代码点做一些判断可以这么写

String testCode &＃61; "ab\uD83D\uDE03cd";int cpCount &＃61; testCode.codePointCount(0, testCode.length());for(int index &＃61; 0; index

也就是按照codePointindex取字符&＃xff0c;0取到a&＃xff0c;1取到b&＃xff0c;2取到\uD83D\uDE03也就是&＃x1f600;&＃xff0c;3取到c&＃xff0c;4取到d&＃xff1b;
按照String的index取字符&＃xff0c;0取到a&＃xff0c;1取到b&＃xff0c;2取到\uD83D&＃xff0c;3取到\uDE03&＃xff0c;4取到c&＃xff0c;5取到d。
这就是codePointIndex和char的index的区别。

取到codePoint就可以按照unicode值进行字符的过滤等操作。

如果有个需求是既可以按照unicode值过滤字符&＃xff0c;也能按照正则表达式过滤字符&＃xff0c;并且还有白名单&＃xff0c;应该如何实现呢。

其实unicode过滤和正则表达式过滤并不冲突&＃xff0c;自己实现自己的过滤就好了&＃xff0c;如果需求加入了过滤白名单就会复杂一些&＃xff0c;不能直接过滤&＃xff0c;需要先检验是否是白名单的index。

我的思路是记录白名单char的index&＃xff0c;正则表达式或其他过滤方式可以获得违规char的index&＃xff0c;unicode黑名单的codepointIndex可以转换成char的index&＃xff0c;在获取codePont的index时可以判断当前字符是单char字符还是双char字符&＃xff0c;双char字符需要添加2个下标&＃xff0c;方法如下

//取到unicode值 int codepoint &＃61; testCode.codePointAt(i);//将unicode值转换成char数组char[] chars &＃61; Character.toChars(codepoint);charIndexs.add(pointIndex);if (chars.length > 1) {//表示不是单char字符&＃xff0c;记录index时同时添加i&＃43;1charIndexs.add(pointIndex &＃43; 1);}

//例
String str &＃61; “ab\uD83D\uDE03汉字”;
想处理emoji&＃xff0c;那记录的下标就是2、3&＃xff0c;最后和白名单下标比较后统一删除

如何区别char是一对还是单个
就之前的例子ab\uD83D\uDE03cd&＃xff0c;换种写法\u0061\u0062\uD83D\uDE0\u0063\u0064
程序是如何将\uD83D\uDE03解析成一个字符的呢。这就需要Surrogate这个概念&＃xff0c;来自UTF-16。

UTF-16是16bit最多编码65536&＃xff0c;那大于65536如何编码&＃xff1f;Unicode 标准制定组想出的办法是&＃xff0c;从这65536个编码里&＃xff0c;拿出2048个&＃xff0c;规定他们是「Surrogates」&＃xff0c;让他们两个为一组&＃xff0c;来代表编号大于65536的那些字符。
编号为 U&＃43;D800 至 U&＃43;DBFF 的规定为「High Surrogates」&＃xff0c;共1024个。
编号为 U&＃43;DC00 至 U&＃43;DFFF 的规定为「Low Surrogates」&＃xff0c;也是1024个。
他们组合出现&＃xff0c;就又可以多表示1048576中字符。

看一下String.codePointAt这个方法&＃xff0c;

static int codePointAtImpl(char[] a, int index, int limit) {char c1 &＃61; a[index];if (isHighSurrogate(c1) && &＃43;&＃43;index }

其中有两个方法isHighSurrogate、isLowSurrogate。
第一个方法判断是否为高代理项代码单元&＃xff0c;即在’\uD800’与’\uDBFF’之间&＃xff0c;
第二个方法判断是否为低代理项代码单元&＃xff0c;即在’\uDC00’与’\uDFFF’之间。

codePointAtImpl方法判断当前char是高代理项代码单元&＃xff0c;下一个是低代理项代码单元&＃xff0c;则这两个char是一个codepoint。

再来看一下unicode转UTF-16的方法

如果U<0x10000&＃xff0c;U的UTF-16编码就是U对应的16位无符号整数&＃xff08;为书写简便&＃xff0c;下文将16位无符号整数记作WORD&＃xff09;。
如果U≥0x10000&＃xff0c;我们先计算U’&＃61;U-0x10000&＃xff0c;然后将U’写成二进制形式&＃xff1a;yyyy yyyy yyxx xxxx xxxx&＃xff0c;U的UTF-16编码&＃xff08;二进制&＃xff09;就是&＃xff1a;110110yyyyyyyyyy 110111xxxxxxxxxx。

还是以U&＃43;1F603这个&＃x1f603;为例子&＃xff0c;U’&＃61;U-0x10000&＃61;F603
写成2进制就是1111011000000011&＃xff0c;不足20位前面补0&＃xff0c;
变成0000111101-1000000011&＃xff0c;替换y和x就是1101100000111101&＃xff0c;1101111000000011&＃xff0c;最后UTF-16编码就是[d83d&＃xff0c;de03] 和上面一样。

推荐阅读

get
java判断字符串是不是纯数字,判断字符串是否为数字java

本文目录一览：1、java中判断字符串是否为纯数字 ... [详细]

蜡笔小新 2024-09-27 16:26:40
get
项目需求讨论后台返回的特殊JSON处理

在实际开发中，现在安卓端和后台之间的数据交互，一般都是用JSON来传递数据信息。JSON大家一般都比较熟悉。我这边就以实际项目中的后台传过来的情况和大家分析下及如何处理。比如后台返 ... [详细]

蜡笔小新 2024-09-30 20:59:48
string
统计一个文件calcCharNum.txt（见附件）中字母‘A‘和‘a‘出现的总次数

importjava.io.BufferedReader;importjava.io.File;importjava.io.FileReader;importjava.io. ... [详细]

蜡笔小新 2024-09-30 13:46:51
get
js实现四则混合运算计算器

最近想用js做一个简单的计算器，不过网上的例子好像大部分都是直接从左到右挨个计算，就好像1+2*5，就会先计算1+2，再计算3*5，并没有实现运算符的优先级，这里找到了一种方法实现，来总结一下。不过这 ... [详细]

蜡笔小新 2024-09-30 12:30:30
get
找出字符串中重复字符

2019独角兽企业重金招聘Python工程师标准packagejavaBasic;importjava.util.HashMap;importjava.util.Map; ... [详细]

蜡笔小新 2024-09-30 11:23:11
get
在JAVA代码的不同部分多次使用数组列表

我正在使用数组列表通过构建一个交互式菜单供用户选择来存储来自用户输入的值。到目前为止，我的两个选择是为用户提供向列表输入数据和读取列表的全部内容。到目前为止，我创建的代码由两个类组成。 ... [详细]

蜡笔小新 2024-09-30 10:25:00
get
字符串匹配: BF与KMP算法

文章目录一.BF算法1.算法思想2.代码实现二.KMP算法1.算法思想概述2.理解基于最长相等前后缀进行匹配3.代码中如何实现next数组5.代码实现6.next数组的优化一.BF ... [详细]

蜡笔小新 2024-09-29 15:37:42
get
《Effective Java》阅读笔记9 覆盖equals时总要覆盖hashCode

1.什么是hashcode方法？hashcode方法返回对象的哈希码值在应用程序的执行期间，只要对象的equals方法的比较操作所用到的信息没有改变& ... [详细]

蜡笔小新 2024-09-29 14:43:29
get
java 注入为空_@Autowired注入为null问题分析

问题说明最近看到Spring事务,在学习过程中遇到一个很苦恼问题搭建好Spring的启动环境后出现了一点小问题在启动时候却出现[java.lang.NullPointerExcep ... [详细]

蜡笔小新 2024-09-28 11:25:55
filter
Lodash 中文文档 (v3.10.1)“Collection” 要领

Lodash中文文档(v3.10.1)–“Collection”要领TranslatedbyPeckZegOriginalDocs:Lodashv3.10.1Docs乞助翻译文档的 ... [详细]

蜡笔小新 2024-09-28 08:08:39
get
HttpClientDemo

post请求,携带json对象参数模拟获取tokenpublicstaticStringgetToken()throwsIOException{创建连接CloseableHttp ... [详细]

蜡笔小新 2024-09-27 19:18:58
get
java – 将带有二进制数据的byte []转换为String

我有二进制格式的数据(十六进制：803bc8870a89),我需要将其转换为字符串,以便通过Jackcess在MSAccess数据库中保存二进制数据.我知道,我不认为在Java中使用 ... [详细]

蜡笔小新 2024-09-27 18:50:34
window
Java应用：编写高级JavaScript应用代码

1、创建高级对象使用构造函数来创建对象构造函数是一个函数，调用它来例示并初始化特殊类型的对象。可以使用new关键字来调用一个构造函数。下面给出了使用构造函数的新示例。 ... [详细]

蜡笔小新 2024-09-27 16:12:55
match
c++ 崩溃正则表达式regex_藏在正则表达式里的陷阱

前几天线上一个项目监控信息突然报告异常，上到机器上后查看相关资源的使用情况，发现CPU利用率将近100%。通过Java自带的线程Dump工具࿰ ... [详细]

蜡笔小新 2024-09-27 10:18:16
get
JavaMail的常用类(Session,Transport,MimeMessage,Address,Store,Folder,Multipart)

(一)javax.mail.Session:Session类代表JavaMail中的一次邮件会话.每个基于JavaMail的应用程序至少有一次会话,也可以产生多次会话.发送邮件之前 ... [详细]

蜡笔小新 2024-09-30 09:50:10

俣小沫-WU

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章