当前位置: 开发笔记 > Android > 正文

javastring的一些细节剖析

作者：三哥是二姐的三哥 | 来源：互联网 | 2022-02-04 14:33

首先说明这里指的是Java中String的一些细节部分，需要的朋友可以参考

首先说明这里指的是Java中的String，虽然我已经决定转战C/C++了，但是因为今天碰到一个问题，还是来看一下。String的定义如下：

代码如下:

 
public final class String 
{ 
private final char value[]; // 保存的字符串 
private final int offset; // 开始的位置 
private final int count; // 字符数目 
private int hash; // 缓存的hash值 
...... 
} 

在Debug的时候可以看到保存的值如下：

需要说明一下的是：如果没有调用过hashCode()，那么hash的值为0。容易知道这里的value也就是真正保存的字符串的值（也就是“字符串测试”）的char数组，而每个char的值是多少呢？很容易验证：Unicode。
到这里大家也就猜到我们常用的subString是怎么实现的了：如果是让我们实现的话让new String使用相同的value（char数组），只修改offset和count就可以了。这样的话既省空间又快（不需要拷贝），而事实上也是这样的：

代码如下:

 
public String substring(int beginIndex) { 
return substring(beginIndex, count); 
} 
public String substring(int beginIndex, int endIndex) { 
...... 
return ((beginIndex == 0) && (endIndex == count)) ? this : 
new String(offset + beginIndex, endIndex - beginIndex, value); 
} 
String(int offset, int count, char value[]) { 
this.value = value; 
this.offset = offset; 
this.count = count; 
} 

既然是在讨论字符串，JVM默认使用的是什么编码呢？通过调试可以发现：

代码如下:

 
public static Charset defaultCharset() { 
if (defaultCharset == null) { 
synchronized (Charset.class) { 
java.security.PrivilegedAction pa = new GetPropertyAction("file.encoding"); 
String csn = (String)AccessController.doPrivileged(pa); 
Charset cs = lookup(csn); 
if (cs != null) 
defaultCharset = cs; 
else 
defaultCharset = forName("UTF-8"); 
} 
} 

其中defaultCharset的值可以通过：
　　-Dfile.encoding=utf-8
进行设置。当然如果你想设置为“abc”也可以，但会默认设置为UTF-8。可以通过System.getProperty("file.encoding")来看具体的值。看defaultCharset是为什么呢？因为网络传输的过程中应该都是byte数组，不同的编码方式得到的byte数组可能是不相同的。所以，我们得知道编码方式是怎么得到的吧？具体得到byte数组的方法也就是我们下面重点要看的getBytes了，它最终要调用的是CharsetEncoder的encode方法，如下：

代码如下:

 
public final CoderResult encode(CharBuffer in, ByteBuffer out, boolean endOfInput) { 
int newState = endOfInput ? ST_END : ST_CODING; 
if ((state != ST_RESET) && (state != ST_CODING) && !(endOfInput && (state == ST_END))) 
throwIllegalStateException(state, newState); 
state = newState; 
for (;;) { 
CoderResult cr; 
try { 
cr = encodeLoop(in, out); 
} catch (BufferUnderflowException x) { 
throw new CoderMalfunctionError(x); 
} catch (BufferOverflowException x) { 
throw new CoderMalfunctionError(x); 
} 
if (cr.isOverflow()) 
return cr; 
if (cr.isUnderflow()) { 
if (endOfInput && in.hasRemaining()) { 
cr = CoderResult.malformedForLength(in.remaining()); 
} else { 
return cr; 
} 
} 
CodingErrorAction action = null; 
if (cr.isMalformed()) 
action = malformedInputAction; 
else if (cr.isUnmappable()) 
action = unmappableCharacterAction; 
else 
assert false : cr.toString(); 
if (action == CodingErrorAction.REPORT) 
return cr; 
if (action == CodingErrorAction.REPLACE) { 
if (out.remaining() return CoderResult.OVERFLOW; 
out.put(replacement); 
} 
if ((action == CodingErrorAction.IGNORE) || (action == CodingErrorAction.REPLACE)) { 
in.position(in.position() + cr.length()); 
continue; 
} 
assert false; 
} 
} 

当然首先会根据需要的编码格式选择对应的CharsetEncoder，而最主要的是不同的CharsetEncoder实现了不同的encodeLoop方法。这里可能会不明白为什么这里有个for(;;)？其实看CharsetEncoder所处的包（nio）和它的参数也就大概明白了：这个函数是可以处理流的（虽然我们这里使用的时候不会循环）。
在encodeLoop方法中会将尽可能多的char转换为byte，new String差不多就是上面的逆过程。
在实际的开发过程中经常会遇到乱码问题：
在上传文件的时候取到文件名；
JS传到后端的字符串；
首先先尝试下下面代码的的运行结果：

代码如下:

 
public static void main(String[] args) throws Exception { 
String str = "字符串"; 
// -41 -42 -73 -5 -76 -82 
printArray(str.getBytes()); 
// -27 -83 -105 -25 -84 -90 -28 -72 -78 
printArray(str.getBytes("utf-8")); 
// ??? 
System.out.println(new String(str.getBytes(), "utf-8")); 
// 瀛楃涓? 
System.out.println(new String(str.getBytes("utf-8"), "gbk")); 
// 字符?? 
System.out.println(new String("瀛楃涓?".getBytes("gbk"), "utf-8")); 
// -41 -42 -73 -5 63 63 
printArray(new String("瀛楃涓?".getBytes("gbk"), "utf-8").getBytes()); 
} 
public static void printArray(byte[] bs){ 
for(int i = 0; i System.out.print(bs[i] + " "); 
} 
System.out.println(); 
} 

在程序中的注释中说明了输出结果：
因为GBK中2个byte表示一个汉字，所以就有了6个byte；
因为UTF-8中3个byte表示一个汉字，所以就有了9个byte；
因为通过无法通过GBK生成的byte数组再根据UTF-8的规则去生成字符串，所以显示???；
这个是经常遇到乱码的原因，GBK使用UTF-8生成的byte能生成字符串；
虽然上面生成的是乱码，但是电脑并不这么认为，所以还是能通过getBytes得到字节数组，而这个数组中是utf-8是可以识别的；
最后的两个63（?）应该是encode填充的（或者是字节不够直接填充的，这个地方没有细看）；
GBK和UTF-8对于因为字母和数字的编码是相同的，所以在这几种字符的处理上是不会出现乱码的，但是他们对汉字的编码确实不一样的，这就是很多问题的起源，看下面代码：
　　new String(new String("我们".getBytes("UTF-8"), "GBK").getBytes("GBK"), "UTF-8);
显然这段代码的结果是“我们”，但是对我们有什么用？首先我们注意到：
　　new String("我们".getBytes("UTF-8"), "GBK")；
这段代码的结果是乱码，而且很多的乱码都是“乱成这样的”。但是要记住：这里的乱是对我们而言，对电脑来说无所谓“乱”与“不乱”，它在我们几乎放弃的时候还能从乱码中通过“getBytes("GBK")”得到它的“主心骨”，然后我们就可以用“主心骨”还原出原来的字符串。
貌似上面的这段代码能解决“GBK”和“UTF-8”之间的乱码问题，但是这种解决方法也只限于一种特殊情况：所有连续汉字的个数都是偶数个！原因在上面已经说过了，这里就不赘述了。
那么怎么解决这个问题呢？
第一种解决方法：encodeURI
为什么要用这种方法呢？原因很简单：GBK和UTF-8对于%、数字、字母的编码是统一的，所以在传输encode之后的串可以100%保证在这两种编码下得到的是同一个东西，然后再decode得到字符串就可以。根据String的格式可以猜测encode和decode的效率是非常非常高的，所以这也算是一种很好的解决方法了。
第二种解决方法：统一编码格式
这边使用的是Webx矿建，只需要将webx.xml中设置defaultCharset="UTF-8"就可以了。

推荐阅读

xml
探索Web 2.0新概念：Widget

尽管你可能尚未注意到Widget，但正如几年前对RSS的陌生一样，这一概念正逐渐走入大众视野。据美国某权威杂志预测，2007年将是Widget年。本文将详细介绍Widget的定义、功能及其未来发展趋势。 ... [详细]

蜡笔小新 2024-11-12 18:36:54
xml
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
xml
Linux系统中默认安装目录有哪些？Tomcat在Linux下的默认安装路径是什么？

在Linux系统中，默认安装目录通常包括 `/usr`, `/opt`, 和 `/var` 等。对于Tomcat而言，在Linux下的默认安装路径通常是 `/opt/tomcat` 或者 `/usr/local/tomcat`。具体路径可能会因不同的发行版和配置而有所差异。例如，在Ubuntu Server中，Tomcat的默认安装路径通常是 `/opt/tomcat`。这些目录的选择旨在确保系统的整洁性和可维护性。 ... [详细]

蜡笔小新 2024-11-11 18:51:37
xml
在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解

在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解 ... [详细]

蜡笔小新 2024-11-11 17:28:29
xml
深入解析Properties属性类及其应用

属性类 `Properties` 是 `Hashtable` 类的子类，用于存储键值对形式的数据。该类在 Java 中广泛应用于配置文件的读取与写入，支持字符串类型的键和值。通过 `Properties` 类，开发者可以方便地进行配置信息的管理，确保应用程序的灵活性和可维护性。此外，`Properties` 类还提供了加载和保存属性文件的方法，使其在实际开发中具有较高的实用价值。 ... [详细]

蜡笔小新 2024-11-11 13:55:43
xml
DVWA学习笔记系列：深入理解CSRF攻击机制

DVWA学习笔记系列：深入理解CSRF攻击机制 ... [详细]

蜡笔小新 2024-11-11 13:19:51
json
PHP微信支付退款功能实现及订单创建类代码（附带调用示例）

【实例简介】本文详细介绍了如何在PHP中实现微信支付的退款功能，并提供了订单创建类的完整代码及调用示例。在配置过程中，需确保正确设置相关参数，特别是证书路径应根据项目实际情况进行调整。为了保证系统的安全性，存放证书的目录需要设置为可读权限。值得注意的是，普通支付操作无需证书，但在执行退款操作时必须提供证书。此外，本文还对常见的错误处理和调试技巧进行了说明，帮助开发者快速定位和解决问题。 ... [详细]

蜡笔小新 2024-11-11 13:17:39
xml
深入解析Struts、Spring与Hibernate三大框架的面试要点与技巧

深入解析Struts、Spring与Hibernate三大框架的面试要点与技巧 ... [详细]

蜡笔小新 2024-11-11 13:09:30
xml
Parallels Desktop 10 激活码及免费下载渠道

Parallels Desktop 10 是一款功能强大的虚拟化软件，专为 Mac 用户设计，使其能够无缝运行 Windows 应用程序。该软件不仅显著提升了图形应用的性能，还优化了演示效果。对于需要在 Mac 上高效运行 Windows 程序的用户来说，Parallels Desktop 10 是一个理想的选择。本文将介绍如何获取其激活码及免费下载渠道，帮助用户轻松激活并使用这一强大工具。 ... [详细]

蜡笔小新 2024-11-11 11:41:19
xml
深入解析几种常用的Java后端开发框架组合及其应用场景

本文详细探讨了几种常用的Java后端开发框架组合及其具体应用场景。通过对比分析Spring Boot、MyBatis、Hibernate等框架的特点和优势，结合实际项目需求，为开发者提供了选择合适框架组合的参考依据。同时，文章还介绍了这些框架在微服务架构中的应用，帮助读者更好地理解和运用这些技术。 ... [详细]

蜡笔小新 2024-11-11 10:12:51
android
Android TextView：实现多彩文字与多样化字体效果

在探讨如何在Android的TextView中实现多彩文字与多样化字体效果时，本文提供了一种不依赖HTML技术的解决方案。通过使用SpannableString和相关的Span类，开发者可以轻松地为文本添加丰富的样式和颜色，从而提升用户体验。文章详细介绍了实现过程中的关键步骤和技术细节，帮助开发者快速掌握这一技巧。 ... [详细]

蜡笔小新 2024-11-10 15:37:21
xml
使用JDBC实现ActiveMQ消息持久化机制深入解析

本文深入解析了通过JDBC实现ActiveMQ消息持久化的机制。JDBC能够将消息可靠地存储在多种关系型数据库中，如MySQL、SQL Server、Oracle和DB2等。采用JDBC持久化方式时，数据库会自动生成三个关键表：`activemq_msgs`、`activemq_lock`和`activemq_ACKS`，分别用于存储消息数据、锁定信息和确认状态。这种机制不仅提高了消息的可靠性，还增强了系统的可扩展性和容错能力。 ... [详细]

蜡笔小新 2024-11-10 14:41:02
android
Android 中的 exported 属性详解与应用

在 Android 开发中，`android:exported` 属性用于控制组件（如 Activity、Service、BroadcastReceiver 和 ContentProvider）是否可以被其他应用组件访问或与其交互。若将此属性设为 `true`，则允许外部应用调用或与之交互；反之，若设为 `false`，则仅限于同一应用内的组件进行访问。这一属性对于确保应用的安全性和隐私保护至关重要。 ... [详细]

蜡笔小新 2024-11-10 14:14:26
android
自定义 Android 圆形进度条视图，支持显示数字和中心文字

本文介绍了一种自定义的Android圆形进度条视图，支持在进度条上显示数字，并在圆心位置展示文字内容。通过自定义绘图和组件组合的方式实现，详细展示了自定义View的开发流程和关键技术点。示例代码和效果展示将在文章末尾提供。 ... [详细]

蜡笔小新 2024-11-10 13:04:42
xml
深入解析Hibernate中的乐观锁、悲观锁及其多态特性

本文深入探讨了Hibernate框架中乐观锁和悲观锁的机制及其多态特性。乐观锁假设数据在大多数情况下不会发生冲突，因此在读取数据时不加锁，而是在更新时检查版本号以确保数据未被修改。相比之下，悲观锁则认为数据在并发环境下容易产生冲突，因此在读取数据时立即加锁，以防止其他事务访问同一数据，从而避免潜在的数据不一致问题。文章还详细分析了这两种锁机制在实际应用中的优缺点，并介绍了Hibernate中的多态特性如何与锁机制结合，以实现更高效的数据管理和并发控制。 ... [详细]

蜡笔小新 2024-11-10 12:28:59

三哥是二姐的三哥

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章