热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

关于Unicode,utf8,utf16onmac

Unicode说到Unicode的起源就要先谈起ASCII。ASCII使用一个字节(8位)进行存储,8位一共可以表示256个字符,而ASCII只使用了其中的128位,即0~127位

Unicode

说到Unicode的起源就要先谈起ASCII。
ASCII使用一个字节(8位)进行存储,8位一共可以表示256个字符,而ASCII只使用了其中的128位,即0~127位,这128位里面包括了常用的英文字符以及标点符号。
现在虽然解决了英语的表示问题,但还有一些语言不使用英语的字符表示,因此它们使用剩下的128位进行表示,即128~256位,后面的128位也被称为扩展字符集。
对于亚洲的一些国家,如中国的汉字用256位也无法表示完整,因此会采用两个字节进行存储表示,一开始的时候要求两个字节都需要大于127来表示一个汉字,这时的汉字编码方案被称为GB2312。然而很快用两个字节也不够存储汉字,因此允许只需要第一个字节大于127即可表示一个汉字,扩展后的这种汉字方案就是GBK标准。
OK,不同语言的编码方案似乎已经确定下来了,但还有一个问题:
不同语言的编码方案不一样,那不同国家之间如何通过ASCII进行交流?
因此,人们希望通过unicode实现所有文字的统一编码,每一个文字都有独一无二的unicode码。
unicode使用四个字节(两个十六进制表示一个字节)来存储文字的。
比如常见的U+表示法:

'U+00000024' -> 'U+0024' -> '$'
'U+0001F604' -> 'U+1F604' -> ''

(似乎CSDN markdown不支持emoji,只能用:smile:来代替U+1F604显示的emoji表情)
当使用两个字节的时候,unicode所处的平面也就是BMP平面,包含了基本的文字符号。
可能平时常见的是转义字符的unicode,如\U,\u,\x。
\U后面接8位十六进制, 不足八位的时候根据使用环境看是否可以省略前面的0,\u接4位十六进制,\x接2位十六进制。
但是unicode自身也存在许多问题:
1. 如何判定这是一个unicode码还是一个ascii码?换言之,如何判定四个字节表示一个符号还是四个符号?
2. 在表示传统字节的时候,如ASCII部分的时候,正常来说只需要一个字节,而用unicode进行表示的时候,前三个字节都必须为0,这就造成了空间的极大浪费。
参考资料:Unicode 维基百科

UTF-8

由于以上unicode的问题,一开始unicode的推广受到了阻塞。
但是人们想到可以通过对Unicode进行一种变长的编码方式进行存储,这就是UTF-8。(UTF-8也是一种前缀码,比如哈夫曼编码)

转换规则

在ASCII码的范围,用一个字节表示,超出ASCII码的范围就用字节表示,这就形成了我们上面看到的UTF-8的表示方法,这様的好处是当UNICODE文件中只有ASCII码时,存储的文件都为一个字节,所以就是普通的ASCII文件无异,读取的时候也是如此,所以能与以前的ASCII文件兼容。

大于ASCII码的,就会由上面的第一字节的前几位表示该unicode字符的长度,比如110xxxxx前三位的二进制表示告诉我们这是个2BYTE的UNICODE字符;1110xxxx是个三位的UNICODE字符,依此类推;xxx的位置由字符编码数的二进制表示的位填入。越靠右的x具有越少的特殊意义。只用最短的那个足够表达一个字符编码数的多字节串。注意在多字节串中,第一个字节的开头”1”的数目就是整个串中字节的数目。

ASCII字母继续使用1字节存储,重音文字、希腊字母或西里尔字母等使用2字节来存储,而常用的汉字就要使用3字节。辅助平面字符则使用4字节。

在UTF-8文件的开首,很多时都放置一个U+FEFF字符(UTF-8以EF,BB,BF代表),以显示这个文本文件是以UTF-8编码。

unicode to utf-8 example from 维基百科
值得注意的是,utf-8的一个字节表示跟ASCII码是相同的。

UTF-16

跟UTF-8相似,UTF-16也是一种unicode的编码实现方式,主要的区别是转换规则的不同。
unicode to utf-16 example from 维基百科
utf-16两字节的表示方式跟unicode是相同的,但却无法跟ASCII码兼容。

实例:在mac上通过unicode编码输出emoji表情

way 1

说个不切题的方法,在mac上面只要通过快捷键Ctrl+Command+space就能快速调用emoji表情列表直接输入。(下面步入正题)

way 2

直接在终端通过echo命令打印unicode编码,由于CSDN markdown不支持emoji,所以截图:
《关于Unicode,utf-8,utf-16 on mac》

way 3

如果我想要在mac上直接输入unicode码,那就要开启mac的Unicode Hex Input了。
打开Preference里面的keyboard,点击input source然后将Unicode Hex Input加入(善用搜索功能)。
接着在终端上按住option键的同时输入四位的unicode码,终端上就会显示对应的符号了。参考stack overflow链接:how do you echo a 4 digit unicode character in bash
OK,四位的unicode码的键盘输入解决了,但如果我想输入不只两个字节的unicode码呢?
首先,要对mac的Unicode Hex Input有一个认识,即它的输入是按照UTF-16进行编码的。
一开始的时候输入四位unicode码能正常输出正是因为UTF-16两个字节的表示跟Unicode是完全相同的,因此,如果,我们想要输出emoji表情,必须先把emoji的unicode码转换成UTF-16再通过option输出。
例子参考这个链接:How can I type unicode characters without using the mouse?
但是,不建议在终端上进行显示,因为终端显示的编码方式默认是UTF-8,因此通过UTF-16显示的emoji不会在终端上显示。(随便找个输入框进行测试)
通过locale命令可以读取当前的语系并进行export 修改。

way 4

最后,我想在vim里面输入emoji呢?
vim同样提供了对emoji的支持,可以先在一般模式下输入:help unicode查看帮助文件,依次按下Ctrl+V u进入unicode的输入模式。
参考链接:how-to-insert-unicode-characters-in-vim


推荐阅读
  • 本文旨在探讨设计模式在Visual FoxPro (VFP) 中的应用可能性。虽然VFP作为一种支持面向对象编程(xbase语言)的工具,其OO特性相对简明,缺乏高级语言如Java、C++等提供的复杂特性,但设计模式作为一种通用的解决方案框架,是否能有效应用于VFP,值得深入研究。 ... [详细]
  • Web动态服务器Python基本实现
    Web动态服务器Python基本实现 ... [详细]
  • 在OpenCV 3.1.0中实现SIFT与SURF特征检测
    本文介绍如何在OpenCV 3.1.0版本中通过Python 2.7环境使用SIFT和SURF算法进行图像特征点检测。由于这些高级功能在OpenCV 3.0.0及更高版本中被移至额外的contrib模块,因此需要特别处理才能正常使用。 ... [详细]
  • 理解浏览器历史记录(2)hashchange、pushState
    阅读目录1.hashchange2.pushState本文也是一篇基础文章。继上文之后,本打算去研究pushState,偶然在一些信息中发现了锚点变 ... [详细]
  • 深入解析WebP图片格式及其应用
    随着互联网技术的发展,无论是PC端还是移动端,图片数据流量占据了很大比重。尤其在高分辨率屏幕普及的背景下,如何在保证图片质量的同时减少文件大小,成为了亟待解决的问题。本文将详细介绍Google推出的WebP图片格式,探讨其在实际项目中的应用及优化策略。 ... [详细]
  • 高级缩放示例.就像谷歌地图一样.它仅缩放图块,但不缩放整个图像.因此,缩放的瓷砖占据了恒定的记忆,并且不会为大型缩放图像调整大小的图像.对于简化的缩放示例lookhere.在Win ... [详细]
  • 深入理解云计算与大数据技术
    本文详细探讨了云计算与大数据技术的关键知识点,包括大数据处理平台、社会网络大数据、城市大数据、工业大数据、教育大数据、数据开放与共享的应用,以及搜索引擎与Web挖掘、推荐技术的研究及应用。文章还涵盖了云计算的基础概念、特点和服务类型分类。 ... [详细]
  • 实践指南:使用Express、Create React App与MongoDB搭建React开发环境
    本文详细介绍了如何利用Express、Create React App和MongoDB构建一个高效的React应用开发环境,旨在为开发者提供一套完整的解决方案,包括环境搭建、数据模拟及前后端交互。 ... [详细]
  • 在现代Web开发中,HTML5 Canvas常用于图像处理和绘图任务。本文将详细介绍如何将Canvas中的图像导出并上传至服务器,适用于拼图、图片编辑等场景。 ... [详细]
  • 电商高并发解决方案详解
    本文以京东为例,详细探讨了电商中常见的高并发解决方案,包括多级缓存和Nginx限流技术,旨在帮助读者更好地理解和应用这些技术。 ... [详细]
  • 5分钟快速筛选特定候选人的简历
    介绍一个新的系列,专注于提供能在5分钟内完成的简单实用案例。本文将以办公中常见的需求为例,展示如何快速从大量简历中筛选出特定候选人的简历。 ... [详细]
  • Java 基础数据类型及其存储大小与取值范围
    本文介绍了 Java 中的八种基础数据类型,包括 byte、char、short、int、long、float、double 和 boolean,并详细说明了每种类型的存储大小和取值范围。 ... [详细]
  • 开发笔记:前端之前端初识
    开发笔记:前端之前端初识 ... [详细]
  • 带你把MySQL索引吃透了
    数据库|mysql教程mysql数据库-mysql教程支付宝网页支付源码,ubuntu脑图,tomcat显示默认主页,爬虫听书软件,php可以开发什么软件,天津关键词seo排名优化 ... [详细]
  • 程序员学习数据库安装教程中必会MySQL使用规范手册
    一个平台或系统随着时间的推移和用户量的增多,数据库操作往往会变慢;而在Java应用开发中数据库更是尤为重要,绝大多数情况下数据库的性能决定 ... [详细]
author-avatar
唯1色彩黄
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有