热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

关于Unicode,utf8,utf16onmac

Unicode说到Unicode的起源就要先谈起ASCII。ASCII使用一个字节(8位)进行存储,8位一共可以表示256个字符,而ASCII只使用了其中的128位,即0~127位

Unicode

说到Unicode的起源就要先谈起ASCII。
ASCII使用一个字节(8位)进行存储,8位一共可以表示256个字符,而ASCII只使用了其中的128位,即0~127位,这128位里面包括了常用的英文字符以及标点符号。
现在虽然解决了英语的表示问题,但还有一些语言不使用英语的字符表示,因此它们使用剩下的128位进行表示,即128~256位,后面的128位也被称为扩展字符集。
对于亚洲的一些国家,如中国的汉字用256位也无法表示完整,因此会采用两个字节进行存储表示,一开始的时候要求两个字节都需要大于127来表示一个汉字,这时的汉字编码方案被称为GB2312。然而很快用两个字节也不够存储汉字,因此允许只需要第一个字节大于127即可表示一个汉字,扩展后的这种汉字方案就是GBK标准。
OK,不同语言的编码方案似乎已经确定下来了,但还有一个问题:
不同语言的编码方案不一样,那不同国家之间如何通过ASCII进行交流?
因此,人们希望通过unicode实现所有文字的统一编码,每一个文字都有独一无二的unicode码。
unicode使用四个字节(两个十六进制表示一个字节)来存储文字的。
比如常见的U+表示法:

'U+00000024' -> 'U+0024' -> '$'
'U+0001F604' -> 'U+1F604' -> ''

(似乎CSDN markdown不支持emoji,只能用:smile:来代替U+1F604显示的emoji表情)
当使用两个字节的时候,unicode所处的平面也就是BMP平面,包含了基本的文字符号。
可能平时常见的是转义字符的unicode,如\U,\u,\x。
\U后面接8位十六进制, 不足八位的时候根据使用环境看是否可以省略前面的0,\u接4位十六进制,\x接2位十六进制。
但是unicode自身也存在许多问题:
1. 如何判定这是一个unicode码还是一个ascii码?换言之,如何判定四个字节表示一个符号还是四个符号?
2. 在表示传统字节的时候,如ASCII部分的时候,正常来说只需要一个字节,而用unicode进行表示的时候,前三个字节都必须为0,这就造成了空间的极大浪费。
参考资料:Unicode 维基百科

UTF-8

由于以上unicode的问题,一开始unicode的推广受到了阻塞。
但是人们想到可以通过对Unicode进行一种变长的编码方式进行存储,这就是UTF-8。(UTF-8也是一种前缀码,比如哈夫曼编码)

转换规则

在ASCII码的范围,用一个字节表示,超出ASCII码的范围就用字节表示,这就形成了我们上面看到的UTF-8的表示方法,这様的好处是当UNICODE文件中只有ASCII码时,存储的文件都为一个字节,所以就是普通的ASCII文件无异,读取的时候也是如此,所以能与以前的ASCII文件兼容。

大于ASCII码的,就会由上面的第一字节的前几位表示该unicode字符的长度,比如110xxxxx前三位的二进制表示告诉我们这是个2BYTE的UNICODE字符;1110xxxx是个三位的UNICODE字符,依此类推;xxx的位置由字符编码数的二进制表示的位填入。越靠右的x具有越少的特殊意义。只用最短的那个足够表达一个字符编码数的多字节串。注意在多字节串中,第一个字节的开头”1”的数目就是整个串中字节的数目。

ASCII字母继续使用1字节存储,重音文字、希腊字母或西里尔字母等使用2字节来存储,而常用的汉字就要使用3字节。辅助平面字符则使用4字节。

在UTF-8文件的开首,很多时都放置一个U+FEFF字符(UTF-8以EF,BB,BF代表),以显示这个文本文件是以UTF-8编码。

unicode to utf-8 example from 维基百科
值得注意的是,utf-8的一个字节表示跟ASCII码是相同的。

UTF-16

跟UTF-8相似,UTF-16也是一种unicode的编码实现方式,主要的区别是转换规则的不同。
unicode to utf-16 example from 维基百科
utf-16两字节的表示方式跟unicode是相同的,但却无法跟ASCII码兼容。

实例:在mac上通过unicode编码输出emoji表情

way 1

说个不切题的方法,在mac上面只要通过快捷键Ctrl+Command+space就能快速调用emoji表情列表直接输入。(下面步入正题)

way 2

直接在终端通过echo命令打印unicode编码,由于CSDN markdown不支持emoji,所以截图:
《关于Unicode,utf-8,utf-16 on mac》

way 3

如果我想要在mac上直接输入unicode码,那就要开启mac的Unicode Hex Input了。
打开Preference里面的keyboard,点击input source然后将Unicode Hex Input加入(善用搜索功能)。
接着在终端上按住option键的同时输入四位的unicode码,终端上就会显示对应的符号了。参考stack overflow链接:how do you echo a 4 digit unicode character in bash
OK,四位的unicode码的键盘输入解决了,但如果我想输入不只两个字节的unicode码呢?
首先,要对mac的Unicode Hex Input有一个认识,即它的输入是按照UTF-16进行编码的。
一开始的时候输入四位unicode码能正常输出正是因为UTF-16两个字节的表示跟Unicode是完全相同的,因此,如果,我们想要输出emoji表情,必须先把emoji的unicode码转换成UTF-16再通过option输出。
例子参考这个链接:How can I type unicode characters without using the mouse?
但是,不建议在终端上进行显示,因为终端显示的编码方式默认是UTF-8,因此通过UTF-16显示的emoji不会在终端上显示。(随便找个输入框进行测试)
通过locale命令可以读取当前的语系并进行export 修改。

way 4

最后,我想在vim里面输入emoji呢?
vim同样提供了对emoji的支持,可以先在一般模式下输入:help unicode查看帮助文件,依次按下Ctrl+V u进入unicode的输入模式。
参考链接:how-to-insert-unicode-characters-in-vim


推荐阅读
  • 电话号码的字母组合解题思路和代码示例
    本文介绍了力扣题目《电话号码的字母组合》的解题思路和代码示例。通过使用哈希表和递归求解的方法,可以将给定的电话号码转换为对应的字母组合。详细的解题思路和代码示例可以帮助读者更好地理解和实现该题目。 ... [详细]
  • Linux服务器密码过期策略、登录次数限制、私钥登录等配置方法
    本文介绍了在Linux服务器上进行密码过期策略、登录次数限制、私钥登录等配置的方法。通过修改配置文件中的参数,可以设置密码的有效期、最小间隔时间、最小长度,并在密码过期前进行提示。同时还介绍了如何进行公钥登录和修改默认账户用户名的操作。详细步骤和注意事项可参考本文内容。 ... [详细]
  • 本文介绍了在rhel5.5操作系统下搭建网关+LAMP+postfix+dhcp的步骤和配置方法。通过配置dhcp自动分配ip、实现外网访问公司网站、内网收发邮件、内网上网以及SNAT转换等功能。详细介绍了安装dhcp和配置相关文件的步骤,并提供了相关的命令和配置示例。 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • XML介绍与使用的概述及标签规则
    本文介绍了XML的基本概念和用途,包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则,包括标签的尖括号和合法标识符的组成,标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读,读者可以对XML的基本知识有一个全面的了解。 ... [详细]
  • FeatureRequestIsyourfeaturerequestrelatedtoaproblem?Please ... [详细]
  • 本文介绍了南邮ctf-web的writeup,包括签到题和md5 collision。在CTF比赛和渗透测试中,可以通过查看源代码、代码注释、页面隐藏元素、超链接和HTTP响应头部来寻找flag或提示信息。利用PHP弱类型,可以发现md5('QNKCDZO')='0e830400451993494058024219903391'和md5('240610708')='0e462097431906509019562988736854'。 ... [详细]
  • 本文介绍了Android 7的学习笔记总结,包括最新的移动架构视频、大厂安卓面试真题和项目实战源码讲义。同时还分享了开源的完整内容,并提醒读者在使用FileProvider适配时要注意不同模块的AndroidManfiest.xml中配置的xml文件名必须不同,否则会出现问题。 ... [详细]
  • 在Xamarin XAML语言中如何在页面级别构建ControlTemplate控件模板
    本文介绍了在Xamarin XAML语言中如何在页面级别构建ControlTemplate控件模板的方法和步骤,包括将ResourceDictionary添加到页面中以及在ResourceDictionary中实现模板的构建。通过本文的阅读,读者可以了解到在Xamarin XAML语言中构建控件模板的具体操作步骤和语法形式。 ... [详细]
  • Imtryingtofigureoutawaytogeneratetorrentfilesfromabucket,usingtheAWSSDKforGo.我正 ... [详细]
  • 基于dlib的人脸68特征点提取(眨眼张嘴检测)python版本
    文章目录引言开发环境和库流程设计张嘴和闭眼的检测引言(1)利用Dlib官方训练好的模型“shape_predictor_68_face_landmarks.dat”进行68个点标定 ... [详细]
  • 本文介绍了在iOS开发中使用UITextField实现字符限制的方法,包括利用代理方法和使用BNTextField-Limit库的实现策略。通过这些方法,开发者可以方便地限制UITextField的字符个数和输入规则。 ... [详细]
  • 树莓派语音控制的配置方法和步骤
    本文介绍了在树莓派上实现语音控制的配置方法和步骤。首先感谢博主Eoman的帮助,文章参考了他的内容。树莓派的配置需要通过sudo raspi-config进行,然后使用Eoman的控制方法,即安装wiringPi库并编写控制引脚的脚本。具体的安装步骤和脚本编写方法在文章中详细介绍。 ... [详细]
  • iOS超签签名服务器搭建及其优劣势
    本文介绍了搭建iOS超签签名服务器的原因和优势,包括不掉签、用户可以直接安装不需要信任、体验好等。同时也提到了超签的劣势,即一个证书只能安装100个,成本较高。文章还详细介绍了超签的实现原理,包括用户请求服务器安装mobileconfig文件、服务器调用苹果接口添加udid等步骤。最后,还提到了生成mobileconfig文件和导出AppleWorldwideDeveloperRelationsCertificationAuthority证书的方法。 ... [详细]
  • 基于Socket的多个客户端之间的聊天功能实现方法
    本文介绍了基于Socket的多个客户端之间实现聊天功能的方法,包括服务器端的实现和客户端的实现。服务器端通过每个用户的输出流向特定用户发送消息,而客户端通过输入流接收消息。同时,还介绍了相关的实体类和Socket的基本概念。 ... [详细]
author-avatar
唯1色彩黄
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有