大家好,我是Dodo团队的娇娇。
最近工作中遇到中文乱码的问题,这里做下记录,同时也跟大家分享下。
这篇文章是以以下这种方式展开的,先提出问题,列出解决方案,最后再寻找原理。
第一,先讲出我在工作中遇到的问题:
以下是我遇到问题的代码:
public staticString sendGet(String url, String param) {
String result = "";
BufferedReader in = null;
try{
String urlNameString = url + "?"+ param;
URL realUrl = newURL(urlNameString);
// 打开和URL之间的连接
URLConnection connection = realUrl.openConnection();
// 设置通用的请求属性
connection.setRequestProperty("accept", "*/*");
connection.setRequestProperty("connection", "Keep-Alive");
connection.setRequestProperty("user-agent",
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;SV1)");
// 建立实际的连接
connection.connect();
// 定义 BufferedReader输入流来读取URL的响应
InputStreamReader reader = newInputStreamReader(
connection.getInputStream());
in = newBufferedReader(reader);
String line;
while((line = in.readLine()) != null) {
result += line;
}
} catch(Exception e) {
System.out.println("发送GET请求出现异常!"+ e);
e.printStackTrace();
}
// 使用finally块来关闭输入流
finally{
try{
if(in != null) {
in.close();
}
} catch(Exception e2) {
e2.printStackTrace();
}
}
returnresult;
}
之后将获取QQ信息的接口以及参数传入后,结果遇到中文的时候,会返回给我一串以下的内容:
portraitCallBack({"1262255026":["http://qlogo3.store.qq.com/qzone/1262255026/1262255026/100",9685,-1,0,0,0,"�����ʰ���ഺ",0]})
大家是不是对这种平时不在意,一遇到了还没辙的问题感到烦恼,我也觉得很烦,那我们应该如何来解决这种问题呢?
在步入正题之前,让我们先简单了解下何为JAVA编码?
要回答这个问题必须要回到计算机是如何表示我们人类能够理解的符号的,这些符号也就是我们人类使用的语言。由于人类的语言有太多,因而表示这些语言的符号太多,无法用计算机中一个基本的存储单元—— byte 来表示,因而必须要经过拆分或一些翻译工作,才能让计算机能理解。(引用自https://www.cnblogs.com/yuan1164345228/p/6937958.html)
唉,如果有个大一统的编码标准,也不至于我们遇到这种问题头痛脑热了。可是这种问题吧,还真心没有特别好的解决方案,也只有一个一个试,但是试也是有方向的,总不至于JAVA中160个编码格式一个一个试过去吧,额,其实也不用一个一个试,通过Charset.availableCharsets()就可以得到所有的编码格式,然后一个循环走起就好了,但是有时候还得需要了解下常用的编码格式,以及它们的区别,因为他们有的是有包含关系的,下面就让我们来了解下几种常用的编码格式吧。
JAVA编码中几种常用的编码格式:
ASCII码
总共128个,用一个字节的低7位表示,0~31是控制字符,如换行、回车、删除等,32~126是打印字符,可以通过键盘输入并且能够显示出来.
ISO-8859-1
扩展自ASCII,仍然是单字节编码,一共能表示256个字符
GB2312
双字节编码。总编码范围A1~F7 ,其中A1~A9是符号区,包含682个符号,从B0~F7是汉字区,包含6763个汉字
GBK
扩展自GB2312,能表示21003个汉字,其编码和GB2312是兼容的。GBK的文字编码是用双字节来表示的,即不论中、英文字符均使用双字节来表示,为了区分中文,将其最高位都设定成1。GBK包含全部中文字符
GB18030
在实际应用系统中使用的并不广泛
Unicode
Unicode 是 Java 和 XML 的基础,使用0~65 535的双字节无符号数对每一个字符进行编码
UTF-8
是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24为(三个字节)来编码,使用Unicode编码,一个英文字符要占用两个字节,在Internet上,大多数的信息都是用英文来表示的,如果都采用Unicode编码,将会使数据量增加一倍。为了减少存储和传输英文字符数据的数据量,可以使用UTF-8编码。
不知道你有没有大致了解我们几种常用的编码格式了呢?我想我的答案已经不重要了,但还是写一下吧:
把
// 定义 BufferedReader输入流来读取URL的响应
InputStreamReader reader = newInputStreamReader(
connection.getInputStream());
改为
// 定义 BufferedReader输入流来读取URL的响应
InputStreamReader reader = newInputStreamReader(
connection.getInputStream(),"gbk");
我觉得我没有将很原理性的内容写下来,并且我的理解还尚浅,有机会再做补充,希望大家指正~