当前位置: 开发笔记 > Android > 正文

javastring的一些细节剖析

作者：三哥是二姐的三哥 | 来源：互联网 | 2022-02-04 14:33

首先说明这里指的是Java中String的一些细节部分，需要的朋友可以参考

首先说明这里指的是Java中的String，虽然我已经决定转战C/C++了，但是因为今天碰到一个问题，还是来看一下。String的定义如下：

代码如下:

 
public final class String 
{ 
private final char value[]; // 保存的字符串 
private final int offset; // 开始的位置 
private final int count; // 字符数目 
private int hash; // 缓存的hash值 
...... 
} 

在Debug的时候可以看到保存的值如下：

需要说明一下的是：如果没有调用过hashCode()，那么hash的值为0。容易知道这里的value也就是真正保存的字符串的值（也就是“字符串测试”）的char数组，而每个char的值是多少呢？很容易验证：Unicode。
到这里大家也就猜到我们常用的subString是怎么实现的了：如果是让我们实现的话让new String使用相同的value（char数组），只修改offset和count就可以了。这样的话既省空间又快（不需要拷贝），而事实上也是这样的：

代码如下:

 
public String substring(int beginIndex) { 
return substring(beginIndex, count); 
} 
public String substring(int beginIndex, int endIndex) { 
...... 
return ((beginIndex == 0) && (endIndex == count)) ? this : 
new String(offset + beginIndex, endIndex - beginIndex, value); 
} 
String(int offset, int count, char value[]) { 
this.value = value; 
this.offset = offset; 
this.count = count; 
} 

既然是在讨论字符串，JVM默认使用的是什么编码呢？通过调试可以发现：

代码如下:

 
public static Charset defaultCharset() { 
if (defaultCharset == null) { 
synchronized (Charset.class) { 
java.security.PrivilegedAction pa = new GetPropertyAction("file.encoding"); 
String csn = (String)AccessController.doPrivileged(pa); 
Charset cs = lookup(csn); 
if (cs != null) 
defaultCharset = cs; 
else 
defaultCharset = forName("UTF-8"); 
} 
} 

其中defaultCharset的值可以通过：
　　-Dfile.encoding=utf-8
进行设置。当然如果你想设置为“abc”也可以，但会默认设置为UTF-8。可以通过System.getProperty("file.encoding")来看具体的值。看defaultCharset是为什么呢？因为网络传输的过程中应该都是byte数组，不同的编码方式得到的byte数组可能是不相同的。所以，我们得知道编码方式是怎么得到的吧？具体得到byte数组的方法也就是我们下面重点要看的getBytes了，它最终要调用的是CharsetEncoder的encode方法，如下：

代码如下:

 
public final CoderResult encode(CharBuffer in, ByteBuffer out, boolean endOfInput) { 
int newState = endOfInput ? ST_END : ST_CODING; 
if ((state != ST_RESET) && (state != ST_CODING) && !(endOfInput && (state == ST_END))) 
throwIllegalStateException(state, newState); 
state = newState; 
for (;;) { 
CoderResult cr; 
try { 
cr = encodeLoop(in, out); 
} catch (BufferUnderflowException x) { 
throw new CoderMalfunctionError(x); 
} catch (BufferOverflowException x) { 
throw new CoderMalfunctionError(x); 
} 
if (cr.isOverflow()) 
return cr; 
if (cr.isUnderflow()) { 
if (endOfInput && in.hasRemaining()) { 
cr = CoderResult.malformedForLength(in.remaining()); 
} else { 
return cr; 
} 
} 
CodingErrorAction action = null; 
if (cr.isMalformed()) 
action = malformedInputAction; 
else if (cr.isUnmappable()) 
action = unmappableCharacterAction; 
else 
assert false : cr.toString(); 
if (action == CodingErrorAction.REPORT) 
return cr; 
if (action == CodingErrorAction.REPLACE) { 
if (out.remaining() return CoderResult.OVERFLOW; 
out.put(replacement); 
} 
if ((action == CodingErrorAction.IGNORE) || (action == CodingErrorAction.REPLACE)) { 
in.position(in.position() + cr.length()); 
continue; 
} 
assert false; 
} 
} 

当然首先会根据需要的编码格式选择对应的CharsetEncoder，而最主要的是不同的CharsetEncoder实现了不同的encodeLoop方法。这里可能会不明白为什么这里有个for(;;)？其实看CharsetEncoder所处的包（nio）和它的参数也就大概明白了：这个函数是可以处理流的（虽然我们这里使用的时候不会循环）。
在encodeLoop方法中会将尽可能多的char转换为byte，new String差不多就是上面的逆过程。
在实际的开发过程中经常会遇到乱码问题：
在上传文件的时候取到文件名；
JS传到后端的字符串；
首先先尝试下下面代码的的运行结果：

代码如下:

 
public static void main(String[] args) throws Exception { 
String str = "字符串"; 
// -41 -42 -73 -5 -76 -82 
printArray(str.getBytes()); 
// -27 -83 -105 -25 -84 -90 -28 -72 -78 
printArray(str.getBytes("utf-8")); 
// ??? 
System.out.println(new String(str.getBytes(), "utf-8")); 
// 瀛楃涓? 
System.out.println(new String(str.getBytes("utf-8"), "gbk")); 
// 字符?? 
System.out.println(new String("瀛楃涓?".getBytes("gbk"), "utf-8")); 
// -41 -42 -73 -5 63 63 
printArray(new String("瀛楃涓?".getBytes("gbk"), "utf-8").getBytes()); 
} 
public static void printArray(byte[] bs){ 
for(int i = 0; i System.out.print(bs[i] + " "); 
} 
System.out.println(); 
} 

在程序中的注释中说明了输出结果：
因为GBK中2个byte表示一个汉字，所以就有了6个byte；
因为UTF-8中3个byte表示一个汉字，所以就有了9个byte；
因为通过无法通过GBK生成的byte数组再根据UTF-8的规则去生成字符串，所以显示???；
这个是经常遇到乱码的原因，GBK使用UTF-8生成的byte能生成字符串；
虽然上面生成的是乱码，但是电脑并不这么认为，所以还是能通过getBytes得到字节数组，而这个数组中是utf-8是可以识别的；
最后的两个63（?）应该是encode填充的（或者是字节不够直接填充的，这个地方没有细看）；
GBK和UTF-8对于因为字母和数字的编码是相同的，所以在这几种字符的处理上是不会出现乱码的，但是他们对汉字的编码确实不一样的，这就是很多问题的起源，看下面代码：
　　new String(new String("我们".getBytes("UTF-8"), "GBK").getBytes("GBK"), "UTF-8);
显然这段代码的结果是“我们”，但是对我们有什么用？首先我们注意到：
　　new String("我们".getBytes("UTF-8"), "GBK")；
这段代码的结果是乱码，而且很多的乱码都是“乱成这样的”。但是要记住：这里的乱是对我们而言，对电脑来说无所谓“乱”与“不乱”，它在我们几乎放弃的时候还能从乱码中通过“getBytes("GBK")”得到它的“主心骨”，然后我们就可以用“主心骨”还原出原来的字符串。
貌似上面的这段代码能解决“GBK”和“UTF-8”之间的乱码问题，但是这种解决方法也只限于一种特殊情况：所有连续汉字的个数都是偶数个！原因在上面已经说过了，这里就不赘述了。
那么怎么解决这个问题呢？
第一种解决方法：encodeURI
为什么要用这种方法呢？原因很简单：GBK和UTF-8对于%、数字、字母的编码是统一的，所以在传输encode之后的串可以100%保证在这两种编码下得到的是同一个东西，然后再decode得到字符串就可以。根据String的格式可以猜测encode和decode的效率是非常非常高的，所以这也算是一种很好的解决方法了。
第二种解决方法：统一编码格式
这边使用的是Webx矿建，只需要将webx.xml中设置defaultCharset="UTF-8"就可以了。

推荐阅读

xml
网络链路质量监控：Smokeping部署与配置

本文详细介绍了如何在Linux系统上安装和配置Smokeping，以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装，确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]

蜡笔小新 2024-12-27 19:31:05
json
RESTful API 与传统接口的主要区别

本文探讨了 RESTful API 和传统接口之间的关键差异，解释了为什么 RESTful API 在设计和实现上具有独特的优势。 ... [详细]

蜡笔小新 2024-12-27 15:33:42
android
RecyclerView初步学习(一)

RecyclerView初步学习(一)ReCyclerView提供了一种插件式的编程模式，除了提供ViewHolder缓存模式，还可以自定义动画，分割符，布局样式，相比于传统的ListVi ... [详细]

蜡笔小新 2024-12-26 20:24:01
xml
C# 教程：Unity 中通过 XML 配置文件传递参数给自定义生命周期构造函数

本文介绍如何在 Unity 的 XML 配置文件中，将参数传递给自定义生命周期管理器的构造函数。我们将详细探讨 CustomLifetimeManager 类的实现及其配置方法。 ... [详细]

蜡笔小新 2024-12-26 17:21:54
xml
深入解析 org.apache.xmlbeans.SchemaType.getBaseEnumType() 方法及其应用

本文详细介绍了 Java 中 org.apache.xmlbeans.SchemaType 类的 getBaseEnumType() 方法，提供了多个代码示例，并解释了其在不同场景下的使用方法。 ... [详细]

蜡笔小新 2024-12-26 11:46:55
xml
解决MyBatis Mapper绑定异常：org.apache.ibatis.binding.BindingException: Invalid bound statement (not found)

本文详细介绍了如何解决MyBatis中常见的BindingException错误，提供了多种排查和修复方法，确保Mapper接口与XML文件的正确配置。 ... [详细]

蜡笔小新 2024-12-25 19:42:47
xml
基于KVM的SRIOV直通配置及性能测试

SRIOV介绍、VF直通配置，以及包转发率性能测试小慢哥的原创文章，欢迎转载目录?1.SRIOV介绍?2.环境说明?3.开启SRIOV?4.生成VF?5.VF ... [详细]

蜡笔小新 2024-12-25 19:26:39
eclipse
解决JAX-WS动态客户端工厂弃用问题并迁移到XFire

在处理Java项目中的JAR包冲突时，我们遇到了JaxWsDynamicClientFactory被弃用的问题，并成功将其迁移到org.codehaus.xfire.client。本文详细介绍了这一过程及解决方案。 ... [详细]

蜡笔小新 2024-12-25 18:48:34
json
解析猫鼬 findOne 方法返回 null 的原因

本文探讨了在通过 API 端点调用时，使用猫鼬（Mongoose）的 findOne 方法总是返回 null 的问题，并提供了详细的解决方案和建议。 ... [详细]

蜡笔小新 2024-12-25 17:40:33
xml
掌握Java EE的全面指南

探讨如何真正掌握Java EE，包括所需技能、工具和实践经验。资深软件教学总监李刚分享了对毕业生简历中常见问题的看法，并提供了详尽的标准。 ... [详细]

蜡笔小新 2024-12-25 13:38:29
android
在Android中排列多行小部件 - Arranging Rows of Widgets in Android

本文介绍如何使用布局文件在Android应用中排列多行TextView和Button，使其占据屏幕的特定比例，并提供示例代码以帮助理解和实现。 ... [详细]

蜡笔小新 2024-12-25 10:33:17
xml
Tomcat配置80端口时常见问题及解决方案

本文探讨了在Windows Server 2008环境下配置Tomcat使用80端口时遇到的问题，包括端口被占用、多项目访问失败等，并提供详细的解决方法和配置建议。 ... [详细]

蜡笔小新 2024-12-24 19:21:28
xml
深入理解Java Web中的过滤器机制

本文详细介绍了Java Web应用程序中的过滤器（Filter）功能，包括其作用、实现方式及配置方法。过滤器可以在请求到达目标资源之前对其进行预处理，并在响应返回给客户端之前进行后处理。 ... [详细]

蜡笔小新 2024-12-24 17:57:57
xml
JavaScript 实战与基础案例解析

本文介绍了多个关于JavaScript的书籍资源、实用工具和编程实例，涵盖从入门到进阶的各个阶段，帮助读者全面提升JavaScript编程能力。 ... [详细]

蜡笔小新 2024-12-24 16:36:52
xml
分享一个简化版的Silverlight链接图项目：Link Map Simplified

本文介绍了一个使用Silverlight开发的可视化工具，主要用于展示和操作复杂的实体关系图（Graph）。该工具在犯罪调查系统中得到了广泛应用，帮助用户直观地获取和理解相关信息。 ... [详细]

蜡笔小新 2024-12-24 15:29:19

三哥是二姐的三哥

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章