指定utf8之后为什么还是‘’ascii_浅谈对ASCII、UNICODE、LANTIN1、UTF81632的认识...

作者：尕心疼TammyY | 来源：互联网 | 2023-09-15 16:45

现在java入门大家基本上都是在说springmvc,mybatis，springboot，springcloud等等的应用框架，说起来一

现在java入门大家基本上都是在说springmvc,mybatis&＃xff0c;springboot&＃xff0c;spring cloud 等等的应用框架&＃xff0c;说起来一套一套的&＃xff0c;似乎很高端的样子&＃xff0c;对方听起来一愣一愣的。但对底层的数据结构、编码、算法等这类有就所偏弱了。本人也有同样问题&＃xff0c;我是以java技术出身&＃xff0c;没有正统的学习过汇编、C这些比较底层的言语。对一基很基础的知识理论并不理解和透彻。之前对编码知识这块都是一知半解。所以近两天专门查阅了一些基础知识&＃xff0c;对ascii、unicode、lantin-1、utf-8、utf-16/32编码知识补习了一下。

趁人未老&＃xff0c;还没把知识忘记&＃xff0c;现在归纳总结下自己的理解。本文章节包括如下几点&＃xff1a;

字节基本知识
ASCII编码
UNICODE编码
UTF-8编码
UTF-16/32编码
LANTIN-1编码

一、字节基本知识

理解ascii,unicode等编码&＃xff0c;为什么先理解字节的基本知识了&＃xff1f;是因为了解基本知识后有助于理解相关编码知识。 甩个百度百科链接自己看 https://baike.baidu.com/item/%E4%BD%8D%E3%80%81%E5%AD%97%E8%8A%82%E3%80%81%E5%AD%97/15650262

最终要知道是 1字节 &＃61; 8位。举例这里有8个数字&＃xff08;0或1&＃xff09;组成的就是1字节 ,如 00000010 。而1字节能表示的数值范围是 0 ~ 255&＃xff0c;计算方法是 “2的8次方 ”。

二、ASCII编码

计算机是个文盲&＃xff0c;只认识0和1。如果我们把 001010100010100100101010 输进计算机&＃xff0c;它马上能知道这个数字转成10进制是9527&＃xff08;这个9527是瞎写的&＃xff09;。但是我们农民百姓怎么知道00101010001010010010 1010这个是什么鬼。所以呢&＃xff0c;歪果仁就制定了一套规则&＃xff0c;把字母、数字&＃xff0c;符号都编个号&＃xff0c;比如大写&＃39;A&＃39;是65&＃xff0c;数字’1‘是49&＃xff0c;转成二进制就是 65 &＃61; 0100 0001&＃xff0c; 49 &＃61; 0011 0001 。
歪果仁所用的英语&＃xff0c;也就ABC &＃43; 123 这么几个字组成&＃xff0c;所以当时只定了127个字符对应关系&＃xff0c;也就是ASCII编码。127个字符的是基础ascii编码&＃xff0c;也就是最早的编码规范了。引用百度百科&＃xff08;https://baike.baidu.com/item/ASCII/309296?fr&＃61;aladdin&＃xff09;的一句话&＃xff1a; ASCII 码使用指定的7 位或8 位二进制数组合来表示128 或256 种可能的字符。标准ASCII 码也叫基础ASCII码&＃xff0c;使用7 位二进制数&＃xff08;剩下的1位二进制为0&＃xff09;来表示所有的大写和小写字母&＃xff0c;数字0 到9、标点符号&＃xff0c;以及在美式英语中使用的特殊控制字符

基础ascii码的字节表示方式是 &＃xff1a; 0XXX XXXX &＃xff08;见上述百度百科描述&＃xff09;。第一位必须为0&＃xff0c;剩下的7位二进制范围是0 ~ 127。一个字节的范围是0 ~ 255&＃xff0c;现在基础ASCII码用到了0 ~ 127&＃xff0c;而-1~ -128 范围干嘛用了呢&＃xff1f;还是百度百科的一句话(如果描述不对&＃xff0c;就找百度说去吧)&＃xff1a;

高位128个称为扩展ASCII码。许多基于x86的系统都支持使用扩展&＃xff08;或“高”&＃xff09;ASCII。扩展ASCII 码允许将每个字符的第8 位用于确定附加的128 个特殊符号字符、外来语字母和图形符号基础ascii和扩展ascii的分布情况用图表示&＃xff1a;

小结&＃xff1a; 1. ascii是单字节&＃xff0c;在 0 ~ 127 范围是基础码&＃xff0c;在128 ~255 是扩展码&＃xff1b; 2. 在0 ~ 127范围内是全球标准&＃xff0c;所有单字节编码&＃xff08;latin-1&＃xff09;,或长度可变编码&＃xff08;utf-8&＃xff09;都兼容。而 -1 ~ -128 范围则不兼容&＃xff0c;每种编码规范所定义的标准都不同&＃xff1b;

二、UNICODE规范&＃xff08;这里没用‘编码’二字&＃xff09;

歪果仁图样图森破&＃xff0c;制定ASCII编码时只考虑了ABC&＃xff0c;但没有考虑到非英文国家的文字&＃xff0c;所以光有ascii码还不够&＃xff0c;这就引出了其他编码的诞生。还是引用百度百科来解释UNICODE的诞生原因&＃xff08;https://baike.baidu.com/item/Unicode/750500?fr&＃61;aladdin&＃xff09;

因为计算机只能处理数字&＃xff0c;如果要处理文本&＃xff0c;就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特&＃xff08;bit&＃xff09;作为一个字节&＃xff08;byte&＃xff09;&＃xff0c;所以&＃xff0c;一个字节能表示的最大的整数就是255&＃xff08;二进制11111111&＃61;十进制255&＃xff09;&＃xff0c;0 - 255被用来表示大小写英文字母、数字和一些符号&＃xff0c;这个编码表被称为ASCII编码&＃xff0c;比如大写字母A的编码是65&＃xff0c;小写字母z的编码是122。如果要表示中文&＃xff0c;显然一个字节是不够的&＃xff0c;至少需要两个字节&＃xff0c;而且还不能和ASCII编码冲突&＃xff0c;所以&＃xff0c;中国制定了GB2312编码&＃xff0c;用来把中文编进去。类似的&＃xff0c;日文和韩文等其他语言也有这个问题。为了统一所有文字的编码&＃xff0c;Unicode应运而生。Unicode把所有语言都统一到一套编码里&＃xff0c;这样就不会再有乱码问题了。

目前&＃xff0c;我没有了解UNICODE编码如何去设计每个字符的编码规则&＃xff0c;所以需要大家自行搜索。

百科 https://baike.baidu.com/item/Unicode/750500?fr&＃61;aladdin

这里简单归纳一下我对UNICODE的理解&＃xff1a;

它为每种语言中的每个字符设定了统一并且唯一的二进制编码&＃xff1b;
它只是一个规范&＃xff0c;并没有告诉大家如何存储&＃xff08;这点是关键&＃xff09;。而UTF-8,UTF-16,UTF-32是实现存储UNICODE编码的三种方式。

而有些细心的朋友会问&＃xff1a;为什么WINDOWS下文本编辑器‘另存为’时&＃xff08;下图&＃xff09;&＃xff0c;可以选择UNICODE编码呢&＃xff0c;不是说UNICODE是一个规范吗&＃xff1f;

这个问题&＃xff0c;我当时也有同样的疑问。老夫花了一些时间去搜索答案&＃xff0c;自己也验证了一下

WINDOWS文本编辑器的‘另存为’时的Unicode 就是 UTF-16 LE 编码&＃xff1b;Unicode big endian 就是UTF-16 BE 编码。

用windows记事本‘另存为’UNICODE编码&＃xff0c;用emeditor打开&＃xff0c;显示的是UTF-16 LE。

小结&＃xff1a; 1. UNICODE是一种规范&＃xff0c;为全球定义了每一个字符的唯一的二进制编号&＃xff0c;但没有告诉大家如何去存储这个编号。

三、UTF-8编码

UNICODE规范的实现方式常见有三种&＃xff1a;UTF-8、UTF-16、UTF-32。先说UTF-8吧。 UTF-8:UTF-8&＃xff08;8-bit Unicode Transformation Format&＃xff09;是一种针对Unicode的可变长度字符编码&＃xff0c;由Ken Thompson于1992年创建&＃xff0c;现在已经标准化为RFC 3629&＃xff0c;UTF-8用1到4个字节编码Unicode字&＃xff0c;是可变长度的编码方式。

见上图百度百科中的UTF-8转换表&＃xff0c;图中可以看出在不同范围内UNICODE的字符&＃xff0c;UTF-8所存储的字节数都不同&＃xff0c;比如 0000 ~ 007F ,只需要 1 Byte&＃xff0c;0080 ~ 07FF 需要2 Byte。有些字符是一个字节&＃xff0c;有些字符是两个字节&＃xff0c;有些字符是三个字节。如果假如有三个字节或更多 XXXXXXXX&＃xff5c;XXXXXXXX&＃xff5c;XXXXXXXX &＃xff08;竖线是为了更好区分&＃xff09;&＃xff0c;那计算机怎么知道这三个字节是解析成一个字符&＃xff08;3byte&＃xff09;&＃xff0c;还是一个字节(1 Byte) &＃43; 一个字节(2 Byte)呢&＃xff1f; 以百度百科的描述&＃xff1a;

UTF-8编码规则&＃xff1a;如果只有一个字节则其最高二进制位为0&＃xff1b;如果是多字节&＃xff0c;其第一个字节从最高位开始&＃xff0c;连续的二进制位值为1的个数决定了其编码的字节数&＃xff0c;其余各字节均以10开头。

0xxxxxxx&＃xff1a;单字节编码形式;
110xxxxx 10xxxxxx&＃xff1a;双字节编码形式;
1110xxxx 10xxxxxx 10xxxxxx&＃xff1a;三字节编码形式;
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx&＃xff1a;四字节编码形式;

数前面有几个“1”&＃xff0c;如果“0”开头&＃xff0c;则是单字节&＃xff1b; 如果有两个“1”&＃xff0c;则是双字节&＃xff0c;后面一个字节必须是“10”开头。如下图&＃xff0c;相同颜色的为同一字符。

小结&＃xff1a; 1. UTF-8 是UNICODE的实现存储方式之一&＃xff1b; 2. UTF-8 是长度可变的编码&＃xff0c;是现互联网上用的最普遍的编码&＃xff1b;

四、UTF-16编码

UTF-16是UNICODE编码实现方式之一&＃xff0c;该编码长度既是可变&＃xff0c;亦是固定&＃xff1a;采用存储的字节长度&＃xff0c;要么是2Byte &＃xff0c;要么是4Byte。

UTF-16编码分为 UTF-16 little endian&＃xff08;LE&＃xff09; 和 UTF-16 big endian &＃xff08;BE&＃xff09;: 1&＃xff0e; Little endian&＃xff1a;将低序字节存储在起始地址 2&＃xff0e; Big endian&＃xff1a;将高序字节存储在起始地址这里涉及了一个概念&＃xff0c;就是字节序&＃xff0c;看百度百科的描述:(https://baike.baidu.com/item/%E5%AD%97%E8%8A%82%E5%BA%8F)&＃xff1a;

字节序&＃xff0c;即字节在电脑中存放时的序列与输入&＃xff08;输出&＃xff09;时的序列是先到的在前还是后到的在前。 BIG-ENDIAN、LITTLE-ENDIAN跟CPU有关&＃xff0c;每一种CPU不是BIG-ENDIAN就是LITTLE-ENDIAN。IA架构(Intel、AMD)的CPU中是Little-Endian&＃xff0c;而PowerPC 、SPARC和Motorola处理器是Big-Endian。这其实就是所谓的主机字节序。而网络字节序是指数据在网络上传输时是大头还是小头的&＃xff0c;在Internet的网络字节序是BIG-ENDIAN。所谓的JAVA字节序指的是在JAVA虚拟机中多字节类型数据的存放顺序&＃xff0c;JAVA字节序也是BIG-ENDIAN。

查找了一些相关文章或技术贴&＃xff0c;有一段写的相对比较容易理解的我就直接截图&＃xff0c;不再重复描述说明&＃xff0c;内容源于 https://blog.csdn.net/li123128/article/details/80709027

小结&＃xff1a; 1. UTF-16 是UNICODE的实现存储方式之一&＃xff1b; 2. UTF-16 为分little endian 和 big endian 两种方式&＃xff1b;windows 采用是 utf-16 le ,而 mac 采用是 utf-16 be&＃xff1b; 3. UTF-16 编码采用2byte 或 4byte 的字节来存储字符&＃xff1b;

五、UTF-32编码

理解了ASCII、UNICODE、UTF-8 、UTF-16&＃xff0c;那么UTF-32就没什么好讲的了。百度百科上描述的也很简单&＃xff1a;

UTF-32 (或 UCS-4)是一种将Unicode字符编码的协定&＃xff0c;对每一个Unicode码位使用恰好32位元。其它的Unicode transformation formats则使用不定长度编码。因为UTF-32对每个字符都使用4字节&＃xff0c;就空间而言&＃xff0c;是非常没有效率的。特别地&＃xff0c;非基本多文种平面的字符在大部分文件中通常很罕见&＃xff0c;以致于它们通常被认为不存在占用空间大小的讨论&＃xff0c;使得UTF-32通常会是其它编码的二到四倍。虽然每一个码位使用固定长定的字节看似方便&＃xff0c;它并不如其它Unicode编码使用得广泛。

小结&＃xff1a; 1. 每个字符都采用 4byte 字节来存储&＃xff0c;浪费存储空间&＃xff1b;

六、Latin-1

还是百度百科的描述&＃xff08;https://baike.baidu.com/item/latin1/1183590?fr&＃61;aladdin&＃xff09;&＃xff1a;

Latin1是ISO-8859-1的别名&＃xff0c;有些环境下写作Latin-1。ISO-8859-1编码是单字节编码&＃xff0c;向下兼容ASCII&＃xff0c;其编码范围是0x00-0xFF&＃xff0c;0x00-0x7F之间完全和ASCII一致&＃xff0c;0x80-0x9F之间是控制字符&＃xff0c;0xA0-0xFF之间是文字符号。

小结&＃xff1a; 1. latin-1 就是 iso-8895-1; 2. latin-1 是单字节编码&＃xff1b; 3. 在 0 ~ 127 范围与 ascii 的一致&＃xff1b;在128 ~ 255 则不同&＃xff1b; 4. 因为latin-1(ISO-8859-1)编码范围使用了单字节内的所有空间&＃xff0c;在支持ISO-8859-1的系统中传输和存储其他任何编码的字节流都不会被抛弃。

七、收尾

参考了网上大神们的总结和分享。https://blog.csdn.net/guxiaonuan/article/details/78678043 https://blog.csdn.net/hezh1994/article/details/78899683 https://blog.csdn.net/Deft_MKJing/article/details/79460485 https://www.cnblogs.com/tk55/p/6592673.html https://blog.csdn.net/tcf_jingfeng/article/details/80134600 https://blog.csdn.net/qq_36761831/article/details/82291166 中间还参考了其他的文章&＃xff0c;很多都记不清了&＃xff0c;所以就不一一贴出。
本文多方引用了百度百科的解析&＃xff0c;并不是它解析或描述的很好&＃xff0c;最主要是我认为百科给出的定义内容是相对个人网站或个人撰写的文章而言&＃xff0c;是相对比较可信的。
写一编总结不易&＃xff0c;前前后后花了不少时。一是要自己理解后再写下来&＃xff1b;二是不能只单看某一编文章就下定论&＃xff0c;需多方参考、对比。
理解了ASCII &＃xff0c;UNICODE 之后&＃xff0c;再去了解中文&＃xff0c;法文&＃xff0c;俄文等编码会更容易理解。

如有错漏&＃xff0c;请纠正&＃xff01;

推荐阅读

ascii
深入理解ASCII、ANSI、GB2312、UNICODE及UTF-8、UTF-16编码

本文回顾了作者初次接触Unicode编码时的经历，并详细探讨了ASCII、ANSI、GB2312、UNICODE以及UTF-8和UTF-16编码的区别和应用场景。通过实例分析，帮助读者更好地理解和使用这些编码。 ... [详细]

蜡笔小新 2024-11-13 07:33:27
数组
深入解析 Redis 的数据结构与对象系统

Redis 是一个高性能的开源键值存储系统，支持多种数据结构。本文将详细介绍 Redis 中的六种底层数据结构及其在对象系统中的应用，包括字符串对象、列表对象、哈希对象、集合对象和有序集合对象。通过12张图解，帮助读者全面理解 Redis 的数据结构和对象系统。 ... [详细]

蜡笔小新 2024-11-16 17:48:35
数组
Java反射机制详解及应用场景

本文详细介绍了Java反射机制的基本概念、获取Class对象的方法、反射的主要功能及其在实际开发中的应用。通过具体示例，帮助读者更好地理解和使用Java反射。 ... [详细]

蜡笔小新 2024-11-13 16:08:08
web
教你从写一个迷你koarouter到阅读koarouter源码

本打算教一步步实现koa-router，因为要解释的太多了，所以先简化成mini版本，从实现部分功能到阅读源码，希望能让你好理解一些。希望你之前有读过koa源码，没有的话，给你链接 ... [详细]

蜡笔小新 2024-11-17 13:09:46
数组
Python 快速排序算法详解及应用

本文详细介绍了 Python 中的快速排序算法，包括其原理、实现方法以及应用场景。同时，还探讨了其他常见排序算法及其特点。 ... [详细]

蜡笔小新 2024-11-17 12:43:03
数组
大华股份2013届校园招聘软件算法类试题D卷

一、填空题（共17题，每题3分，总共51分）1.设有inta5,*b,**c,执行语句c&b,b&a后，**c的值为________答：5 ... [详细]

蜡笔小新 2024-11-17 11:01:27
数组
C#编程教程：二进制逆序操作的多种方法详解

本文详细介绍了如何对一个整数的二进制表示进行逆序操作。通过多种方法，包括直接法、查表法和分治法，帮助读者全面理解和掌握这一技术。 ... [详细]

蜡笔小新 2024-11-16 21:52:54
web
PHP函数的工作原理与性能分析

在编程语言中，函数是最基本的组成单元。本文将探讨PHP函数的特点、调用机制以及性能表现，并通过实际测试给出优化建议。 ... [详细]

蜡笔小新 2024-11-16 19:21:45
jsp
2023年最新解读：PHP中C的作用

本文将详细探讨PHP中C的作用，并对比其他编程语言如Java和C的特点及其适用场景。 ... [详细]

蜡笔小新 2024-11-16 16:14:42
数组
Spring 中策略模式的应用：Resource 接口详解

本文探讨了在 Spring 框架中如何利用 Resource 接口实现资源访问策略。Resource 接口作为资源访问策略的抽象，通过多种实现类支持不同类型的资源访问。 ... [详细]

蜡笔小新 2024-11-15 23:58:40
数组
LeetCode 实战：寻找三数之和为零的组合

给定一个包含 n 个整数的数组，判断该数组中是否存在三个元素 a、b、c，使得 a + b + c = 0。找出所有满足条件且不重复的三元组。 ... [详细]

蜡笔小新 2024-11-15 18:39:48
数组
LeetCode 312. 戳气球【动态规划】【Java】【困难】

本文将详细介绍 LeetCode 312. 戳气球问题的背景、解题思路及实现方法，包括题目描述、解题策略、代码实现及解题过程。 ... [详细]

蜡笔小新 2024-11-15 15:48:41
数组
NC75 数组中唯一出现的两个数字

在一个整型数组中，除了两个数字只出现一次外，其他所有数字都出现了两次。编写一个程序来找出这两个只出现一次的数字。 ... [详细]

蜡笔小新 2024-11-15 15:19:11
数组
Java 9 及以上版本中 String 类为何使用 byte[] 而非 char[]?

传统上，Java 的 String 类一直使用 char 数组来存储字符数据。然而，在 Java 9 及更高版本中，String 类的内部实现改为使用 byte 数组。本文将探讨这一变化的原因及其带来的好处。 ... [详细]

蜡笔小新 2024-11-14 18:40:52
io
C#实现文件的压缩与解压

2019独角兽企业重金招聘Python工程师标准一、准备工作1、下载ICSharpCode.SharpZipLib.dll文件2、项目中引用这个dll二、文件压缩与解压共用类 ... [详细]

蜡笔小新 2024-11-14 10:37:34

尕心疼TammyY

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章