关于Unicode，utf8，utf16onmac

作者：唯1色彩黄 | 来源：互联网 | 2023-08-18 14:05

Unicode说到Unicode的起源就要先谈起ASCII。ASCII使用一个字节（8位）进行存储，8位一共可以表示256个字符，而ASCII只使用了其中的128位，即0～127位

Unicode

说到Unicode的起源就要先谈起ASCII。
ASCII使用一个字节（8位）进行存储，8位一共可以表示256个字符，而ASCII只使用了其中的128位，即0～127位，这128位里面包括了常用的英文字符以及标点符号。
现在虽然解决了英语的表示问题，但还有一些语言不使用英语的字符表示，因此它们使用剩下的128位进行表示，即128～256位，后面的128位也被称为扩展字符集。
对于亚洲的一些国家，如中国的汉字用256位也无法表示完整，因此会采用两个字节进行存储表示，一开始的时候要求两个字节都需要大于127来表示一个汉字，这时的汉字编码方案被称为GB2312。然而很快用两个字节也不够存储汉字，因此允许只需要第一个字节大于127即可表示一个汉字，扩展后的这种汉字方案就是GBK标准。
OK，不同语言的编码方案似乎已经确定下来了，但还有一个问题：
不同语言的编码方案不一样，那不同国家之间如何通过ASCII进行交流？
因此，人们希望通过unicode实现所有文字的统一编码，每一个文字都有独一无二的unicode码。
unicode使用四个字节（两个十六进制表示一个字节）来存储文字的。
比如常见的U+表示法：
'U+00000024' -> 'U+0024' -> '$' 'U+0001F604' -> 'U+1F604' -> ''
(似乎CSDN markdown不支持emoji，只能用:smile:来代替U+1F604显示的emoji表情)
当使用两个字节的时候，unicode所处的平面也就是BMP平面，包含了基本的文字符号。
可能平时常见的是转义字符的unicode，如\U，\u，\x。
\U后面接8位十六进制，不足八位的时候根据使用环境看是否可以省略前面的0，\u接4位十六进制，\x接2位十六进制。
但是unicode自身也存在许多问题：
1. 如何判定这是一个unicode码还是一个ascii码？换言之，如何判定四个字节表示一个符号还是四个符号？
2. 在表示传统字节的时候，如ASCII部分的时候，正常来说只需要一个字节，而用unicode进行表示的时候，前三个字节都必须为0，这就造成了空间的极大浪费。
参考资料：Unicode 维基百科

UTF-8

由于以上unicode的问题，一开始unicode的推广受到了阻塞。
但是人们想到可以通过对Unicode进行一种变长的编码方式进行存储，这就是UTF-8。（UTF-8也是一种前缀码，比如哈夫曼编码）

转换规则

在ASCII码的范围，用一个字节表示，超出ASCII码的范围就用字节表示，这就形成了我们上面看到的UTF-8的表示方法，这様的好处是当UNICODE文件中只有ASCII码时，存储的文件都为一个字节，所以就是普通的ASCII文件无异，读取的时候也是如此，所以能与以前的ASCII文件兼容。
大于ASCII码的，就会由上面的第一字节的前几位表示该unicode字符的长度，比如110xxxxx前三位的二进制表示告诉我们这是个2BYTE的UNICODE字符；1110xxxx是个三位的UNICODE字符，依此类推；xxx的位置由字符编码数的二进制表示的位填入。越靠右的x具有越少的特殊意义。只用最短的那个足够表达一个字符编码数的多字节串。注意在多字节串中，第一个字节的开头”1”的数目就是整个串中字节的数目。
ASCII字母继续使用1字节存储，重音文字、希腊字母或西里尔字母等使用2字节来存储，而常用的汉字就要使用3字节。辅助平面字符则使用4字节。
在UTF-8文件的开首，很多时都放置一个U+FEFF字符（UTF-8以EF,BB,BF代表），以显示这个文本文件是以UTF-8编码。

unicode to utf-8 example from 维基百科
值得注意的是，utf-8的一个字节表示跟ASCII码是相同的。

UTF-16

跟UTF-8相似，UTF-16也是一种unicode的编码实现方式，主要的区别是转换规则的不同。
unicode to utf-16 example from 维基百科
utf-16两字节的表示方式跟unicode是相同的，但却无法跟ASCII码兼容。

实例：在mac上通过unicode编码输出emoji表情

way 1

说个不切题的方法，在mac上面只要通过快捷键Ctrl+Command+space就能快速调用emoji表情列表直接输入。（下面步入正题）

way 2

直接在终端通过echo命令打印unicode编码，由于CSDN markdown不支持emoji，所以截图：
《关于Unicode，utf-8，utf-16 on mac》

way 3

如果我想要在mac上直接输入unicode码，那就要开启mac的Unicode Hex Input了。
打开Preference里面的keyboard，点击input source然后将Unicode Hex Input加入（善用搜索功能）。
接着在终端上按住option键的同时输入四位的unicode码，终端上就会显示对应的符号了。参考stack overflow链接：how do you echo a 4 digit unicode character in bash
OK，四位的unicode码的键盘输入解决了，但如果我想输入不只两个字节的unicode码呢？
首先，要对mac的Unicode Hex Input有一个认识，即它的输入是按照UTF-16进行编码的。
一开始的时候输入四位unicode码能正常输出正是因为UTF-16两个字节的表示跟Unicode是完全相同的，因此，如果，我们想要输出emoji表情，必须先把emoji的unicode码转换成UTF-16再通过option输出。
例子参考这个链接：How can I type unicode characters without using the mouse?
但是，不建议在终端上进行显示，因为终端显示的编码方式默认是UTF-8，因此通过UTF-16显示的emoji不会在终端上显示。（随便找个输入框进行测试）
通过locale命令可以读取当前的语系并进行export 修改。

way 4

最后，我想在vim里面输入emoji呢？
vim同样提供了对emoji的支持，可以先在一般模式下输入:help unicode查看帮助文件，依次按下Ctrl+V u进入unicode的输入模式。
参考链接：how-to-insert-unicode-characters-in-vim

推荐阅读

input
探讨设计模式在VFP中的应用

本文旨在探讨设计模式在Visual FoxPro (VFP) 中的应用可能性。虽然VFP作为一种支持面向对象编程(xbase语言)的工具，其OO特性相对简明，缺乏高级语言如Java、C++等提供的复杂特性，但设计模式作为一种通用的解决方案框架，是否能有效应用于VFP，值得深入研究。 ... [详细]

蜡笔小新 2024-11-19 14:01:24
text
Web动态服务器Python基本实现

Web动态服务器Python基本实现 ... [详细]

蜡笔小新 2024-11-21 08:01:30
tree
在OpenCV 3.1.0中实现SIFT与SURF特征检测

本文介绍如何在OpenCV 3.1.0版本中通过Python 2.7环境使用SIFT和SURF算法进行图像特征点检测。由于这些高级功能在OpenCV 3.0.0及更高版本中被移至额外的contrib模块，因此需要特别处理才能正常使用。 ... [详细]

蜡笔小新 2024-11-20 21:00:18
text
理解浏览器历史记录（2）hashchange、pushState

阅读目录1.hashchange2.pushState本文也是一篇基础文章。继上文之后，本打算去研究pushState，偶然在一些信息中发现了锚点变 ... [详细]

蜡笔小新 2024-11-20 20:05:37
metadata
深入解析WebP图片格式及其应用

随着互联网技术的发展，无论是PC端还是移动端，图片数据流量占据了很大比重。尤其在高分辨率屏幕普及的背景下，如何在保证图片质量的同时减少文件大小，成为了亟待解决的问题。本文将详细介绍Google推出的WebP图片格式，探讨其在实际项目中的应用及优化策略。 ... [详细]

蜡笔小新 2024-11-20 16:31:47
object
将图像平移到画布中心python_python – Tkinter画布缩放移动/平移

高级缩放示例.就像谷歌地图一样.它仅缩放图块,但不缩放整个图像.因此,缩放的瓷砖占据了恒定的记忆,并且不会为大型缩放图像调整大小的图像.对于简化的缩放示例lookhere.在Win ... [详细]

蜡笔小新 2024-11-20 15:47:04
object
深入理解云计算与大数据技术

本文详细探讨了云计算与大数据技术的关键知识点，包括大数据处理平台、社会网络大数据、城市大数据、工业大数据、教育大数据、数据开放与共享的应用，以及搜索引擎与Web挖掘、推荐技术的研究及应用。文章还涵盖了云计算的基础概念、特点和服务类型分类。 ... [详细]

蜡笔小新 2024-11-20 13:24:51
object
实践指南：使用Express、Create React App与MongoDB搭建React开发环境

本文详细介绍了如何利用Express、Create React App和MongoDB构建一个高效的React应用开发环境，旨在为开发者提供一套完整的解决方案，包括环境搭建、数据模拟及前后端交互。 ... [详细]

蜡笔小新 2024-11-20 10:05:15
object
HTML5 Canvas 图片导出与上传至远程服务器的方法

在现代Web开发中，HTML5 Canvas常用于图像处理和绘图任务。本文将详细介绍如何将Canvas中的图像导出并上传至服务器，适用于拼图、图片编辑等场景。 ... [详细]

蜡笔小新 2024-11-18 18:04:32
stream
电商高并发解决方案详解

本文以京东为例，详细探讨了电商中常见的高并发解决方案，包括多级缓存和Nginx限流技术，旨在帮助读者更好地理解和应用这些技术。 ... [详细]

蜡笔小新 2024-11-18 14:59:39
stream
5分钟快速筛选特定候选人的简历

介绍一个新的系列，专注于提供能在5分钟内完成的简单实用案例。本文将以办公中常见的需求为例，展示如何快速从大量简历中筛选出特定候选人的简历。 ... [详细]

蜡笔小新 2024-11-18 12:12:26
stream
Java 基础数据类型及其存储大小与取值范围

本文介绍了 Java 中的八种基础数据类型，包括 byte、char、short、int、long、float、double 和 boolean，并详细说明了每种类型的存储大小和取值范围。 ... [详细]

蜡笔小新 2024-11-17 17:26:38
text
开发笔记:前端之前端初识

开发笔记:前端之前端初识 ... [详细]

蜡笔小新 2024-11-16 16:05:59
text
带你把MySQL索引吃透了

数据库|mysql教程mysql数据库-mysql教程支付宝网页支付源码,ubuntu脑图,tomcat显示默认主页,爬虫听书软件,php可以开发什么软件,天津关键词seo排名优化 ... [详细]

蜡笔小新 2023-10-13 13:25:52
text
程序员学习数据库安装教程中必会MySQL使用规范手册

一个平台或系统随着时间的推移和用户量的增多，数据库操作往往会变慢；而在Java应用开发中数据库更是尤为重要，绝大多数情况下数据库的性能决定 ... [详细]

蜡笔小新 2023-10-13 10:53:48

唯1色彩黄

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章