热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Java中Unicode编码的二进制转换详解与实现

本文详细探讨了Java中Unicode编码的二进制转换方法及其具体实现。通过分析\u开头的字符串,解释了每组\uxxxx如何对应一个特定的Unicode字符,并提供了相关代码示例以加深理解。希望读者在实际开发中能有效应用这些知识。

内容为集体学习心得,不能对准确性做过多保障,谬误之处还望指导。

  有时候咱们会遇到一些\u结尾的字符串,咱们晓得这些是Unicode码,一组\uxxxx字符串对应了一个Unicode字符。那这些编码字符的理论二进制存储格局是怎么呢?
  咱们晓得Unicode编码能够出现世界上大部分的文字内容,而在其最通用的一种编码方式UTF-8
)下,单字符的存储长度为1-4字节(可变),这种设计的由来和长处就不多讲了,这里次要说说看到的\u编码串和二进制的换算形式。
  在UTF-8编码格局的java代码下,对“测试”两个字打印其字节和字符后果如下:

System.out.println(Charset.defaultCharset());
        String s = "测试";
        System.out.println(s.chars().mapToObj(Integer::toHexString).collect(Collectors.joining("\t")));
        byte[] bs = s.getBytes();
        Sys
来源gaodai.ma#com搞##代!^码网
tem.out.println(Arrays.toString(bs)); /*Result: UTF-8 6d4b 8bd5 [-26, -75, -117, -24, -81, -107] */

  察看后果可知,“测试”两个字在UTF-8编码下占六个字节,将 【-26, -75, -117, -24, -81, -107】 6个数字转为二进制补码格局,即失去“测试”两字的二进制存储内容,为:
11100110 10110101 10001011 11101000 10101111 10010101
  而通过char.ToHexString失去的 6d4b 8bd5 是这两个字的Unicode编码
  这两者是怎么关联上的呢?
通过UTF-8的百科页面有如下介绍:

UTF-8编码字节含意
  • 对于UTF-8编码中的任意字节B,如果B的第一位为0,则B独立的示意一个字符(ASCII码);
  • 如果B的第一位为1,第二位为0,则B为一个多字节字符中的一个字节(非ASCII字符);
  • 如果B的前两位为1,第三位为0,则B为两个字节示意的字符中的第一个字节;
  • 如果B的前三位为1,第四位为0,则B为三个字节示意的字符中的第一个字节;
  • 如果B的前四位为1,第五位为0,则B为四个字节示意的字符中的第一个字节;

  因而,对于下面失去的二进制串,每8位中的后面局部都是用来做标记的,1110结尾表明须要3个字节来形容以后字符,并且以后字节为3字节中的第一局部,前面的字节应用10结尾表明本人是以后字符编码串的前面局部。
  把前三字节这些标记为去掉再合并,失去 0110 110101 001011,而“”字的16进制Unicode编码转为二进制,正是0110 1101 0100 1011。
  这样做的长处很显著,扩大不便(看起来能反对到8字节编码呢),编码构造去掉了二进制的标记位,减小体积更易于数据传输。1字节的UTF-8码还残缺兼容了ASCII码,所以UTF-8能够说应该是大部分场景下的最优抉择了。



推荐阅读
  • 优化ListView性能
    本文深入探讨了如何通过多种技术手段优化ListView的性能,包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]
  • 本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例,帮助开发者更好地理解和应用该方法。 ... [详细]
  • 技术分享:从动态网站提取站点密钥的解决方案
    本文探讨了如何从动态网站中提取站点密钥,特别是针对验证码(reCAPTCHA)的处理方法。通过结合Selenium和requests库,提供了详细的代码示例和优化建议。 ... [详细]
  • 1:有如下一段程序:packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]
  • Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]
  • Java 类成员初始化顺序与数组创建
    本文探讨了Java中类成员的初始化顺序、静态引入、可变参数以及finalize方法的应用。通过具体的代码示例,详细解释了这些概念及其在实际编程中的使用。 ... [详细]
  • 本文介绍了Java并发库中的阻塞队列(BlockingQueue)及其典型应用场景。通过具体实例,展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递,并结合线程池和原子类优化性能。 ... [详细]
  • 深入理解Cookie与Session会话管理
    本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息,以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制,解释其原理及应用场景。 ... [详细]
  • 主要用了2个类来实现的,话不多说,直接看运行结果,然后在奉上源代码1.Index.javaimportjava.awt.Color;im ... [详细]
  • 本文详细介绍了Java中org.eclipse.ui.forms.widgets.ExpandableComposite类的addExpansionListener()方法,并提供了多个实际代码示例,帮助开发者更好地理解和使用该方法。这些示例来源于多个知名开源项目,具有很高的参考价值。 ... [详细]
  • 深入解析Spring Cloud Ribbon负载均衡机制
    本文详细介绍了Spring Cloud中的Ribbon组件如何实现服务调用的负载均衡。通过分析其工作原理、源码结构及配置方式,帮助读者理解Ribbon在分布式系统中的重要作用。 ... [详细]
  • 在前两篇文章中,我们探讨了 ControllerDescriptor 和 ActionDescriptor 这两个描述对象,分别对应控制器和操作方法。本文将基于 MVC3 源码进一步分析 ParameterDescriptor,即用于描述 Action 方法参数的对象,并详细介绍其工作原理。 ... [详细]
  • PyCharm中配置Pylint静态代码分析工具
    本文详细介绍如何在PyCharm中配置和使用Pylint,帮助开发者进行静态代码检查,确保代码符合PEP8规范,提高代码质量。 ... [详细]
  • 本文将介绍如何编写一些有趣的VBScript脚本,这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例,帮助您了解VBScript的基本语法和功能。 ... [详细]
  • 本文详细介绍如何使用Python进行配置文件的读写操作,涵盖常见的配置文件格式(如INI、JSON、TOML和YAML),并提供具体的代码示例。 ... [详细]
author-avatar
入骨红豆撕不撕
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有