热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

字符编码解惑

原创:打码日记(微信公众号ID:codelogs),欢迎分享,转载请保留出处。简介现代编程语言都抽象出了String字符串这个概念,注意它是一个高级抽象,但是计算机中实际表示信息时

原创:打码日记(微信公众号ID:codelogs),欢迎分享,转载请保留出处。



简介

现代编程语言都抽象出了String字符串这个概念,注意它是一个高级抽象,但是计算机中实际表示信息时,都是用的字节,所以就需要一种机制,让字符串与字节之间可以相互转换,这种转换机制就是字符编码,如GBKUTF-8

所以可以这样理解字符串与字符编码的关系:



  1. 字符串是一种抽象,比如java中的String类,它在概念上是编码无关的,里面包含一串字符,你不需要关心它在内存中是用什么编码实现的,尽管字符串在内存中存储也是需要使用编码机制的。

  2. 字节串才需要关心编码,当我们要将字符串保存到文件中或发送到网络上时,都需要使用字符编码机制,将字符串转换为字节串,因为计算机底层只认字节。


常见字符编码方案


ASCII

全称为American Standard Code for Information Interchange,美国信息交换标准代码,用来编码英文字符,一个字符占一个字节,只用了字节中的低7位,最高位始终为0,因此只能表示2^7=128个字符。


ISO8859-1

ASCII的扩充,添加了西欧语言、希腊语、泰语、阿拉伯语、希伯来语对应的文字符号,也称latin-1,将ASCII中最高一位也利用起来了,能表示2^8=256个字符,当最高位是0时,编码方式就是ASCII,所以ISO8859-1是兼容ASCII码的。


GBK

全称为Chinese Internal Code Specification,于1995年制定,用来编码汉字的一种方案,一个汉字编码为两个字节,兼容ASCII码编码方案,ASCII中的英文字符编码为一个字节。


Unicode

Unicode 的全称是 universal character encoding,中文一般翻译为"统一码、万国码、单一码",用于定义世界上所有的字符,避免了各个国家设计的本地字符集互相不兼容的问题。早期由于另一个组织也定义了一种与Unicode类似的方案ucs,而后与Unicode合并,故有时Unicode也称为ucs。

注意,Unicode是一种字符集,而不是一种具体的字符编码,要理解Unicode具体是什么,首先要理解字符集与字符编码的关系,一般来说,字符集定义字符与代码点(codepoint)之间的对应关系,而字符编码定义代码点(codepoint)与字节之间的对应关系。

比如ASCII字符集规定A用65表示,至于65在计算机中用什么字节表示,字符集并不关心,而ASCII字符编码定义65应该用一个字节表示,对应为01000001,十六进制表示法为0x41,它是ASCII字符集的一种实现,也是唯一的实现。

但Unicode做为一种字符集,它没有规定Unicode中的字符该如何编码为字节,而UTF-16UTF-32UTF-8就都是Unicode的字符编码实现方案,它们具体定义了如何将Unicode字符转换为相应的字节。

UTF-32

UTF-32编码,也称UCS-4,是Unicode 最直接的编码方式,用 4 个字节来表示 Unicode 字符中的 code point ,比如字母A对应的4个字节为0x00000041。它也是 UTF-*编码家族中唯一的一种定长编码(fixed-length encoding),定长编码的好处是能快速定位第N个字符,便于指针运算。但用四个字节来表示一个字符,对于英文字母来说,空间占用就太大了。

UTF-16

UTF-16编码,也称UCS-2,最少可以采用 2 个字节表示 code point,比如字母A对应的2个字节为0x0041。需要注意的是,UTF-16 是一种变长编码(variable-length encoding),只不过对于 65535 之内的 code point,只需要使用 2 个字节表示而已。但是,很多历史代码库在实现 UTF-16 编码时,直接使用2字节存储,这导致在处理超出 65535 之外的 code point 字符时,会出现一些问题,另外,UTF-16对于纯英文存储,也会浪费1倍存储空间。


字节序与BOM

不同的计算机存储字节的顺序是不一样的,比如 U+4E2D 在 UTF-16 可以保存为4E 2D,也可以保存成2D 4E,这取决于计算机是大端模式还是小端模式,UTF-32也类似。为了解决这个问题,UTF-32与UTF-16都引入了BOM机制,在文件的起始位置放置一个特殊字符BOM(U+FEFF),如果 UTF-16 编码的文件以FF FE开始,那么就意味着其字节序为小端模式,如果以FE FF开始,那么就是大端模式。所以UTF-16根据大小端可区分为两种,UTF-16BE(大端)与UTF-16LE(小端),UTF-32同理。


Unicode表示法

我们经常会看到形如 U+XXXX\uXXXX 形式的东西,它是一种表示Unicode字符的方式,俗称Unicode表示法,其中XXXX是 code point 的十六进制表示,比如 U+0041\u0041 表示Unicode中的字母A。咋一看,这玩意有点类似 UTF-16 ,但要注意它是一种用英文字符串指代一个Unicode字符的方式,不是一种字符编码,字符编码是用字节串指代一个Unicode字符。

UTF-8

由于UTF-16用两个字节编码英文字符,对于纯英文存储,对空间是一种极大的浪费,所以unix之父Ken Thompson又发明了一种Unicode字符编码——UTF-8,它对于ASCII范围内的字符,编码方式与ASCII完全一致,其它字符则采用2字节、3字节甚至4字节的方式存储,所以UTF-8是一种变长编码。对于常见的中文字符,UTF-8使用3字节存储。

包含关系图

包含关系图


乱码又是怎么回事?

乱码本质上是编码端程序与解码端程序用的字符编码不同导致的,比如一个程序(编码端)使用UTF-8存储字符串到文件中,另一个程序(解码端)读取时却用GBK解码,就会出现乱码了。


实践-java

String.getBytes()与new String(bytes)

String str = "好";
//字符串转字节,使用UTF-8
byte[] bytes = str.getBytes("UTF-8");
//'好'在UTF-8下编码为3字节e5a5bd
System.out.println(Hex.encodeHexString(bytes));
//字节转字符串,使用UTF-8
System.out.println(new String(bytes, "UTF-8"));
//字符串转字节,不传字符编码,默认使用操作系统的编码,我开发机是Windows,默认编码为GBK
bytes = str.getBytes();
//'好'在GBK下编码为2字节bac3
System.out.println(Hex.encodeHexString(bytes));
//字节转字符串,同样使用我当前操作系统默认编码GBK
System.out.println(new String(bytes));

对于java的String.getBytes()new String(bytes)方法,是用来进行字符串与字节转换的,但建议最好使用带charset版本的方法,如String.getBytes("UTF-8")new String(bytes,"UTF-8"),因为没有指定字符编码的方法,会默认使用操作系统上设置的编码,而Windows上默认编码经常是GBK,这就导致使用linux或mac开发的程序,运行得好好的,在Windows上却乱码了。

另外,像如下的InputStreamReaderOutputStreamWriter,也有带charset与不带charset版本的,最好也使用带charset版本的方法。

//InputStreamReader与OutputStreamWriter也一样,如果不指定字符编码,就使用操作系统的
InputStreamReader isr = new InputStreamReader(in, "UTF-8");
OutputStreamWriter osw = new OutputStreamWriter(out, "UTF-8");

另外,在启动java项目时,最好带上jvm参数-Dfile. encoding=utf-8,这样可以设置jvm默认编码为UTF-8,避免程序继承操作系统编码,也可以像下面这样,在项目启动的第一行,手动设置编码为UTF-8,这样没有设置jvm参数的同学也不会出现乱码了。

//设置当前jvm默认字符编码为UTF-8,避免继承操作系统编码
System.setProperty("file.encoding", "UTF-8");

实践-linux

od与xxd

od与xxd是查看字节数据的工具,可以以十六进制、八进制、二进制、十进制的方式查看字节,非常方便,如下:

#查看'好'的十六进制,如下'好'输出3个字节,可见echo使用了utf-8编码
$ echo -n 好|xxd
00000000: e5a5 bd
# -b选项表示输出01二进制形式
$ echo -n 好|xxd -b
00000000: 11100101 10100101 10111101
# od同样可以输出十六进制
$ echo -n 好|od -t x1
0000000 e5 a5 bd
# linux下查看ASCII码表
$ man ASCII
$ printf "%0.2X" {0..127}| xxd -r -ps | od -t x1d1c

iconv

iconv是用来转换字符编码的好工具,如下:

# iconv将echo输出的utf-8字节转换为gbk字节,可见中文的gbk编码为2字节
$ echo -n 好|iconv -f utf-8 -t gbk |xxd
00000000: bac3
# 转换为utf-16be,可见中文的utf-16编码一般是2字节
$ echo -n 好|iconv -f utf-8 -t utf-16be |xxd
00000000: 597d
# 转换为utf-32be,可见中文的utf-32编码是4字节,且一般前2个字节都是0
$ echo -n 好|iconv -f utf-8 -t utf-32be |xxd
00000000: 0000 597d

其它有用工具

# Unicode表示法转字符串
$ echo -e '\u597d'

# 字符串转Unicode表示法
$ echo -n '好' | iconv -f utf-8 -t ucs-2be | od -A n -t x2 --endian=big | sed 's/\x20/\\u/g'
\u597d
# 猜测文件编码
$ enca -L zh_CN -g -i file.txt
UTF-8
# 转换文件编码为UTF-8
$ enca -L zh_CN -c -x UTF-8 file.txt

mysql中的utf8mb4又是啥?

UTF-8作为Unicode的一种字符编码方案,本来是可以编码Unicode中的所有字符的,但早期mysql在实现utf-8时,实现时自行限制utf-8最多使用3个字节,也称utf8mb3,导致如今普遍出现的emoji表情无法存储,因为emoji表情要使用4个字节才能编码,这就导致mysql又推出了utf8mb4来弥补这个缺陷。


总结

彻底理解字符编码并不容易,主要是这个在计算机书籍上从来没有重点介绍过,而在自己刚开始工作时,经常遇到各种乱码问题,然后网上一通搜索胡乱设置来解决问题,但却一直没搞清楚为啥,直到自己摸熟iconv这个命令后,才真正理解清楚。


往期内容

真正理解可重复读事务隔离级别

Linux文本命令技巧(下)

Linux文本命令技巧(上)

原来awk真是神器啊

常用网络命令总结



推荐阅读
  • 本文分享了一个关于在C#中使用异步代码的问题,作者在控制台中运行时代码正常工作,但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机,但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ... [详细]
  • 提升Python编程效率的十点建议
    本文介绍了提升Python编程效率的十点建议,包括不使用分号、选择合适的代码编辑器、遵循Python代码规范等。这些建议可以帮助开发者节省时间,提高编程效率。同时,还提供了相关参考链接供读者深入学习。 ... [详细]
  • 本文由编程笔记#小编为大家整理,主要介绍了logistic回归(线性和非线性)相关的知识,包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]
  • 本文详细介绍了SQL日志收缩的方法,包括截断日志和删除不需要的旧日志记录。通过备份日志和使用DBCC SHRINKFILE命令可以实现日志的收缩。同时,还介绍了截断日志的原理和注意事项,包括不能截断事务日志的活动部分和MinLSN的确定方法。通过本文的方法,可以有效减小逻辑日志的大小,提高数据库的性能。 ... [详细]
  • VScode格式化文档换行或不换行的设置方法
    本文介绍了在VScode中设置格式化文档换行或不换行的方法,包括使用插件和修改settings.json文件的内容。详细步骤为:找到settings.json文件,将其中的代码替换为指定的代码。 ... [详细]
  • 本文介绍了使用Java实现大数乘法的分治算法,包括输入数据的处理、普通大数乘法的结果和Karatsuba大数乘法的结果。通过改变long类型可以适应不同范围的大数乘法计算。 ... [详细]
  • Java序列化对象传给PHP的方法及原理解析
    本文介绍了Java序列化对象传给PHP的方法及原理,包括Java对象传递的方式、序列化的方式、PHP中的序列化用法介绍、Java是否能反序列化PHP的数据、Java序列化的原理以及解决Java序列化中的问题。同时还解释了序列化的概念和作用,以及代码执行序列化所需要的权限。最后指出,序列化会将对象实例的所有字段都进行序列化,使得数据能够被表示为实例的序列化数据,但只有能够解释该格式的代码才能够确定数据的内容。 ... [详细]
  • 本文介绍了如何将CIM_DateTime解析为.Net DateTime,并分享了解析过程中可能遇到的问题和解决方法。通过使用DateTime.ParseExact方法和适当的格式字符串,可以成功解析CIM_DateTime字符串。同时还提供了关于WMI和字符串格式的相关信息。 ... [详细]
  • 本文详细介绍了Java中vector的使用方法和相关知识,包括vector类的功能、构造方法和使用注意事项。通过使用vector类,可以方便地实现动态数组的功能,并且可以随意插入不同类型的对象,进行查找、插入和删除操作。这篇文章对于需要频繁进行查找、插入和删除操作的情况下,使用vector类是一个很好的选择。 ... [详细]
  • 本文讨论了Kotlin中扩展函数的一些惯用用法以及其合理性。作者认为在某些情况下,定义扩展函数没有意义,但官方的编码约定支持这种方式。文章还介绍了在类之外定义扩展函数的具体用法,并讨论了避免使用扩展函数的边缘情况。作者提出了对于扩展函数的合理性的质疑,并给出了自己的反驳。最后,文章强调了在编写Kotlin代码时可以自由地使用扩展函数的重要性。 ... [详细]
  • 本文介绍了在MFC下利用C++和MFC的特性动态创建窗口的方法,包括继承现有的MFC类并加以改造、插入工具栏和状态栏对象的声明等。同时还提到了窗口销毁的处理方法。本文详细介绍了实现方法并给出了相关注意事项。 ... [详细]
  • 本文介绍了设计师伊振华受邀参与沈阳市智慧城市运行管理中心项目的整体设计,并以数字赋能和创新驱动高质量发展的理念,建设了集成、智慧、高效的一体化城市综合管理平台,促进了城市的数字化转型。该中心被称为当代城市的智能心脏,为沈阳市的智慧城市建设做出了重要贡献。 ... [详细]
  • WhenIusepythontoapplythepymysqlmoduletoaddafieldtoatableinthemysqldatabase,itdo ... [详细]
  • 先看官方文档TheJavaTutorialshavebeenwrittenforJDK8.Examplesandpracticesdescribedinthispagedontta ... [详细]
  • Python爬虫中使用正则表达式的方法和注意事项
    本文介绍了在Python爬虫中使用正则表达式的方法和注意事项。首先解释了爬虫的四个主要步骤,并强调了正则表达式在数据处理中的重要性。然后详细介绍了正则表达式的概念和用法,包括检索、替换和过滤文本的功能。同时提到了re模块是Python内置的用于处理正则表达式的模块,并给出了使用正则表达式时需要注意的特殊字符转义和原始字符串的用法。通过本文的学习,读者可以掌握在Python爬虫中使用正则表达式的技巧和方法。 ... [详细]
author-avatar
无声无无为爱
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有