热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Java中Unicode编码的二进制转换详解与实现

本文详细探讨了Java中Unicode编码的二进制转换方法及其具体实现。通过分析\u开头的字符串,解释了每组\uxxxx如何对应一个特定的Unicode字符,并提供了相关代码示例以加深理解。希望读者在实际开发中能有效应用这些知识。

内容为集体学习心得,不能对准确性做过多保障,谬误之处还望指导。

  有时候咱们会遇到一些\u结尾的字符串,咱们晓得这些是Unicode码,一组\uxxxx字符串对应了一个Unicode字符。那这些编码字符的理论二进制存储格局是怎么呢?
  咱们晓得Unicode编码能够出现世界上大部分的文字内容,而在其最通用的一种编码方式UTF-8
)下,单字符的存储长度为1-4字节(可变),这种设计的由来和长处就不多讲了,这里次要说说看到的\u编码串和二进制的换算形式。
  在UTF-8编码格局的java代码下,对“测试”两个字打印其字节和字符后果如下:

System.out.println(Charset.defaultCharset());
        String s = "测试";
        System.out.println(s.chars().mapToObj(Integer::toHexString).collect(Collectors.joining("\t")));
        byte[] bs = s.getBytes();
        Sys
来源gaodai.ma#com搞##代!^码网
tem.out.println(Arrays.toString(bs)); /*Result: UTF-8 6d4b 8bd5 [-26, -75, -117, -24, -81, -107] */

  察看后果可知,“测试”两个字在UTF-8编码下占六个字节,将 【-26, -75, -117, -24, -81, -107】 6个数字转为二进制补码格局,即失去“测试”两字的二进制存储内容,为:
11100110 10110101 10001011 11101000 10101111 10010101
  而通过char.ToHexString失去的 6d4b 8bd5 是这两个字的Unicode编码
  这两者是怎么关联上的呢?
通过UTF-8的百科页面有如下介绍:

UTF-8编码字节含意
  • 对于UTF-8编码中的任意字节B,如果B的第一位为0,则B独立的示意一个字符(ASCII码);
  • 如果B的第一位为1,第二位为0,则B为一个多字节字符中的一个字节(非ASCII字符);
  • 如果B的前两位为1,第三位为0,则B为两个字节示意的字符中的第一个字节;
  • 如果B的前三位为1,第四位为0,则B为三个字节示意的字符中的第一个字节;
  • 如果B的前四位为1,第五位为0,则B为四个字节示意的字符中的第一个字节;

  因而,对于下面失去的二进制串,每8位中的后面局部都是用来做标记的,1110结尾表明须要3个字节来形容以后字符,并且以后字节为3字节中的第一局部,前面的字节应用10结尾表明本人是以后字符编码串的前面局部。
  把前三字节这些标记为去掉再合并,失去 0110 110101 001011,而“”字的16进制Unicode编码转为二进制,正是0110 1101 0100 1011。
  这样做的长处很显著,扩大不便(看起来能反对到8字节编码呢),编码构造去掉了二进制的标记位,减小体积更易于数据传输。1字节的UTF-8码还残缺兼容了ASCII码,所以UTF-8能够说应该是大部分场景下的最优抉择了。



推荐阅读
  • JVM参数设置与命令行工具详解
    JVM参数配置与命令行工具的深入解析旨在优化系统性能,通过合理设置JVM参数,确保在高吞吐量的前提下,有效减少垃圾回收(GC)的频率,进而降低系统停顿时间,提升服务的稳定性和响应速度。此外,本文还将详细介绍常用的JVM命令行工具,帮助开发者更好地监控和调优JVM运行状态。 ... [详细]
  • Java Web开发中的JSP:三大指令、九大隐式对象与动作标签详解
    在Java Web开发中,JSP(Java Server Pages)是一种重要的技术,用于构建动态网页。本文详细介绍了JSP的三大指令、九大隐式对象以及动作标签。三大指令包括页面指令、包含指令和标签库指令,它们分别用于设置页面属性、引入其他文件和定义自定义标签。九大隐式对象则涵盖了请求、响应、会话、应用上下文等关键组件,为开发者提供了便捷的操作接口。动作标签则通过预定义的动作来简化页面逻辑,提高开发效率。这些内容对于理解和掌握JSP技术具有重要意义。 ... [详细]
  • 本文作为“实现简易版Spring系列”的第五篇,继前文深入探讨了Spring框架的核心技术之一——控制反转(IoC)之后,将重点转向另一个关键技术——面向切面编程(AOP)。对于使用Spring框架进行开发的开发者来说,AOP是一个不可或缺的概念。了解AOP的背景及其基本原理,对于掌握这一技术至关重要。本文将通过具体示例,详细解析AOP的实现机制,帮助读者更好地理解和应用这一技术。 ... [详细]
  • 本文深入探讨了 MXOTDLL.dll 在 C# 环境中的应用与优化策略。针对近期公司从某生物技术供应商采购的指纹识别设备,该设备提供的 DLL 文件是用 C 语言编写的。为了更好地集成到现有的 C# 系统中,我们对原生的 C 语言 DLL 进行了封装,并利用 C# 的互操作性功能实现了高效调用。此外,文章还详细分析了在实际应用中可能遇到的性能瓶颈,并提出了一系列优化措施,以确保系统的稳定性和高效运行。 ... [详细]
  • 本题库精选了Java核心知识点的练习题,旨在帮助学习者巩固和检验对Java理论基础的掌握。其中,选择题部分涵盖了访问控制权限等关键概念,例如,Java语言中仅允许子类或同一包内的类访问的访问权限为protected。此外,题库还包括其他重要知识点,如异常处理、多线程、集合框架等,全面覆盖Java编程的核心内容。 ... [详细]
  • 探索JavaScript倒计时功能的三种高效实现方法及代码示例 ... [详细]
  • 深入解析 iOS Objective-C 中的对象内存对齐规则及其优化策略
    深入解析 iOS Objective-C 中的对象内存对齐规则及其优化策略 ... [详细]
  • 本次发布的Qt音乐播放器2.0版本在用户界面方面进行了细致优化,提升了整体的视觉效果和用户体验。尽管核心功能与1.0版本保持一致,但界面的改进使得操作更加直观便捷,为用户带来了更为流畅的使用体验。此外,我们还对部分细节进行了微调,以确保软件的稳定性和性能得到进一步提升。 ... [详细]
  • 在多堆石子游戏中,通过分析Nim博弈策略,探讨了如何在限定时间和内存条件下实现最优解。本文详细研究了石子游戏中的数学原理和算法优化方法,旨在为参与者提供有效的策略指导。具体而言,文章讨论了不同堆数下的Nim值计算及其应用,帮助玩家在复杂的博弈环境中取得优势。 ... [详细]
  • 利用Java开发功能完备的电话簿应用程序,支持添加、查询与删除操作
    本研究基于Java语言开发了一款功能全面的电话簿应用程序,实现了与数据库的高效连接。该应用不仅支持添加、查询和删除联系人信息,还具备输出最大和最小ID号的功能,并能够对用户输入的ID号进行有效性验证,确保数据的准确性和完整性。详细实现方法可参阅相关文档。 ... [详细]
  • C#中实现高效UDP数据传输技术
    C#中实现高效UDP数据传输技术 ... [详细]
  • 深入解析:使用C++实现Python字节数组(struct)的高效处理方法 ... [详细]
  • 全面解析Java虚拟机:内存模型深度剖析 ... [详细]
  • Go语言实现Redis客户端与服务器的交互机制深入解析
    在前文对Godis v1.0版本的基础功能进行了详细介绍后,本文将重点探讨如何实现客户端与服务器之间的交互机制。通过具体代码实现,使客户端与服务器能够顺利通信,赋予项目实际运行的能力。本文将详细解析Go语言在实现这一过程中的关键技术和实现细节,帮助读者深入了解Redis客户端与服务器的交互原理。 ... [详细]
  • MySQL 数据操作:增、删、查、改全面解析
    MySQL 数据操作:增、删、查、改全面解析 ... [详细]
author-avatar
入骨红豆撕不撕
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有