当前位置: 开发笔记 > 前端 > 正文

基于字符集、字符编码与HTTP编码解码之万象详解

作者：yfx132435 | 来源：互联网 | 2022-05-14 02:46

在日常编写代码过程中，常常会碰到乱码问题，一个典型的情况是浏览网页，如果网站开发者缺少经验，就会带来这种令人头疼的问题。要了解乱码的症结，我

在日常编写代码过程中，常常会碰到乱码问题，一个典型的情况是浏览网页，如果网站开发者缺少经验，就会带来这种令人头疼的问题。要了解乱码的症结，我们就得从字符集和字符编码说起，先来看看它们到底是什么：
1：字符集：是一个系统支持的所有抽象字符的集合。字符是各种文字和符号的总称，包括各国家文字、标点符号、图形符号、数字等。
2：字符编码：是一套法则，最常规的理解就是：让程序根据这个法则对应到相应的字符集中将byte[]存取为string。
现在，我们要来看看这些东西在 .NET 中对应的是什么。

一：字符集和字符编码
如果想得到全部的字符集，则使用 System.Text.Encoding.GetEncodings() 方法，以下代码用于列出.Net支持的全部字符集：

代码如下:

foreach (var item in Encoding.GetEncodings()) 
{ 
    Console.WriteLine(item.Name); 
}

字符串在进行如网络传输等场景时，要先转为 byte[] 。但是，首先，不同的字符编码规则，所转换生成的byte[]是不一样的。所以，再将byte[]转换回string的时候，要依据原先的字符编码规则。有如下几种情况能导致“乱码”的产生：
1：string to byte[] 和 byte[] to string，使用了不同的字符编码规则；
2：byte[] to string 的时候，当前宿主环境没有对应的字符集；

示例：

代码如下:

string originalString = "Hello Test, 测试!"; 
byte[] utf8Bytes = Encoding.UTF8.GetBytes(originalString); 
string utf8String = Encoding.UTF8.GetString(utf8Bytes); 
string errorString = Encoding.ASCII.GetString(utf8Bytes);

观察Encoding类，实际上象上面UTF8这样的属性，只有几个，这些是最常用的字符集，要获取其它，如gb2312这样的字符集，则需要象如下这样来获得：

代码如下:

byte[] gbBytes = Encoding.GetEncoding("gb2312").GetBytes(originalString); 
string utf8String = Encoding.GetEncoding("gb2312").GetString(gbBytes);

二：典型应用场景之 HttpWebResponse

很多人都作过页面抓取功能， HttpWebResponse 就会比较熟悉，当然如果不嫌麻烦，也可以用 Socket 实现，但是同时要解析很多属性以及处理象重定向之类的诸多问题。

2.1 http header 和http content是什么？
浏览一个网页，使用很多工具，或者使用.Net中的某些类进行抓取，都给我们结构化为 Http 头和正文这样的信息，其实，当我们发送一个请求，服务器返回给我们的是一串 byte[]，我们完全可以自己去从这串 byte[] 解析出 http header 和 http content，它们之间其实仅仅非常简单的以两个 /r/n/ 分割开而已，历史上有著名的CRLF攻击，CR就是\r，LF就是\n，就利用的是这个规则。

2.2 我们如何察看http header，http content？
其实很简单，既然这些都是 byte[] ，所以，我们只要知道这段 byte[] 正确的字符编码规则，就能得到我们所需要看到的 html （html就是字符串而已）。使用 HttpWebResponse 这个类，就能请求一个 url ，该类自动为我们解析出了 httpheader ，有意思的是，它没有给我们解析出 content ，所以，我们需要自己完成正文的byte[] to string。

2.3 http content to string的具体做法
好的，实际上，httpheader 中已经告诉了我们一些字符集编码相关的信息，我们可能感兴趣，以及会混淆的这些http头如下：

代码如下:

Content-Type：WEB 服务器告诉浏览器自己响应的对象的类型和字符集。例如：Content-Type: text/html; charset='gb2312' ； 
Content-Encoding：WEB 服务器表明自己使用了什么压缩方法（gzip，deflate）压缩响应中的对象。例如：Content-Encoding：gzip 。这里我要多说一点，这个 Content-Encoding 的 Http header 会令人混淆，极度容易让人理解成是字符集或字符编码信息；

那么,这些 Http 头在HttpWebResponse 中是怎么代表的呢?

代码如下:

HttpWebResponse.Content-Type对应的是Http头的Content-Type比如"text/html;"后的那个Charset，实际是和HttpWebResponse.Charaterset是一致的。但是如果前者无，则后者

一般会指定一个默认的HttpWebResponse.Charaterset，默认为"iso-8859-1"。
HttpWebResponse.ContentEncoding 代表的是 http头中 Content-Encoding，与此类似的，还有一个http头，为Transfer-Encoding。注意，很恶心的一点是

HttpResponse.ContentEncoding跟HttpWebResponse.ContentEncoding代表的不是一个东西，它和HttpResponse.Charaterset在MSDN上是一致的解释。

根据上面的说法，似乎下面的代码就能得到http content的字符编码规则：

代码如下:

return Encoding.GetEncoding( 
   string.IsNullOrEmpty(HttpWebResponse.Charaterset) ? 
"iso-8859-1" : HttpWebResponse.Charaterset

但是，这里有一个很重要的但是，如果你尝试从Http头或者HttpWebResponse所给我的这些字符编码信息或属性去解码正文content的话，很可能马上就会迎来一个大大的挫折。我们很可能会发现以下几个可悲的事实：

代码如下:

1：http头的Content-Type中没有charset信息； 
2：HttpWebResponse.Charaterset是空的； 
3：http头的Content-Type和HttpWebResponse.Charaterset是不一致的； 
4：http头的Content-Type和HttpWebResponse.Charaterset是一致的，但是解码还是错的； 
5：尝试用"iso-8859-1"解码也是错的。

2.4 为什么还是有乱码问题？BOM能解决一切？

之所以碰到以上问题，其实仅仅是因为，服务器给我们传回来的是byte[]，而任何程序员在写服务器端WEB程序的时候，都有可能有意或无意的转码出不规范的byte[]来。所以，如果我们尝试从http头的Content-Type和HttpWebResponse.Charaterset想要得到编码规则，我们就败了，我们败在了有标准，但是没人严格去执行标准。

有一些颇具迷惑性的API试图在告诉我们，使用我你就能得到该流正确的Encoding了，比如，StreamReader.CurrentEncoding，我们可以把HttpWebResponse的GetResponse中读取到

byte[]，放置到MemoryStream中，然后利用如下代码：

代码如下:

StreamReader sr = new StreamReader(memoryStream, true) 
return sr.CurrentEncoding;

似乎就可以得到Encoding了，其实非也，注意StreamReader构造器的第二个参数，为detectEncodingFromByteOrderMarks。ByteOrderMarks是什么呢？解释如下：

代码如下:

BOM（byte-order mark），即字节顺序标记，它是插入到以UTF-8、UTF16或UTF-32编码Unicode文件开头的特殊标记，用来识别Unicode文件的编 码类型。对于UTF-8来说，BOM并不是必须的，因为BOM用来标记多字节编码文件的编码类型和字节顺序（big-endian或little- endian）。

这表明了什么呢？表明了如果你的字节流未含有BOM，或者即便包含了BOM，但是字节流不是unicode-based的Encoding，则依旧不能得到正确的Encoding，具体我们也可以看StreamReader的源码来得到验证。这个万恶的CurrentEncoding属性并没有告诉你它的前提条件。

2.5 关于本例的一点补充
以上字节流的编码解码，很多地方用了Response做例子，但是，以上解码针对的是非压缩的Response，如果服务器已经对http流进行了压缩（其压缩格式在Content-Encoding中指明了），我们就得先解压缩，再解码Response流，然后再解码正文。考虑到本文的主题，特意剪裁了对于 Response 流的解压过程。

2.6 关于正确解码的尝试

有很多人尝试从byte[]本身去解析和判断编码规则的API，如：codeproject上也有相关的文章，但是可悲的事实是：并没有一种完美的方法来自动判断byte[]的编码规则。还记得我们的浏览器（如IE）的编码设置中的“自动选择”吗，其实这个自动选择的错误率还是蛮高的。所以，对于字节流的生成者，如BS程序开发者，可以通过规范输出：声明charset和编码规范的方式，这样才能让解析者（如浏览器）解析的时候尽可能的少出现乱码。

推荐阅读

view
掌握Java EE的全面指南

探讨如何真正掌握Java EE，包括所需技能、工具和实践经验。资深软件教学总监李刚分享了对毕业生简历中常见问题的看法，并提供了详尽的标准。 ... [详细]

蜡笔小新 2024-12-25 13:38:29
dom
使用Vultr云服务器和Namesilo域名搭建个人网站

本文详细介绍了如何通过Vultr云服务器和Namesilo域名搭建一个功能齐全的个人网站，包括购买、配置服务器以及绑定域名的具体步骤。文章还提供了详细的命令行操作指南，帮助读者顺利完成建站过程。 ... [详细]

蜡笔小新 2024-12-26 16:36:34
html
使用Python在SAE上开发新浪微博应用的初步探索

最近重新审视了新浪云平台（SAE）提供的服务，发现其已支持Python开发。本文将详细介绍如何利用Django框架构建一个简单的新浪微博应用，并分享开发过程中的关键步骤。 ... [详细]

蜡笔小新 2024-12-26 13:36:52
html
MySQL 数据库迁移指南：从本地到远程及磁盘间迁移

本文详细介绍了如何在不同场景下进行 MySQL 数据库的迁移，包括从一个硬盘迁移到另一个硬盘、从一台计算机迁移到另一台计算机，以及解决迁移过程中可能遇到的问题。 ... [详细]

蜡笔小新 2024-12-26 13:21:38
html
PHP 5.5.0rc1 发布：深入解析 Zend OPcache

2013年5月9日，PHP官方发布了PHP 5.5.0rc1和PHP 5.4.15正式版，这两个版本均支持64位环境。本文将详细介绍Zend OPcache的功能及其在Windows环境下的配置与测试。 ... [详细]

蜡笔小新 2024-12-26 12:56:20
html
深入理解Java泛型：JDK 5的新特性

本文详细介绍了Java泛型的概念及其在JDK 5中的应用，通过具体代码示例解释了泛型的引入、作用和优势。同时，探讨了泛型类、泛型方法和泛型接口的实现，并深入讲解了通配符的使用。 ... [详细]

蜡笔小新 2024-12-26 11:15:56
html
Linux服务器间文件传输：使用SCP命令

本文介绍如何在Linux服务器之间使用SCP命令进行文件传输。SCP（Secure Copy Protocol）是一种基于SSH的安全文件传输协议，支持从远程机器复制文件到本地服务器或反之。示例包括从192.168.45.147复制tomcat目录到本地/home路径。 ... [详细]

蜡笔小新 2024-12-26 07:43:09
html
并发编程：深入理解设计原理与优化

本文探讨了并发编程中的关键设计原则，特别是Java内存模型（JMM）的happens-before规则及其对多线程编程的影响。文章详细介绍了DCL双重检查锁定模式的问题及解决方案，并总结了不同处理器和内存模型之间的关系，旨在为程序员提供更深入的理解和最佳实践。 ... [详细]

蜡笔小新 2024-12-26 01:14:06
dom
深入探讨CPU虚拟化与KVM内存管理

本文详细介绍了现代服务器架构中的CPU虚拟化技术，包括SMP、NUMA和MPP三种多处理器结构，并深入探讨了KVM的内存虚拟化机制。通过对比不同架构的特点和应用场景，帮助读者理解如何选择最适合的架构以优化性能。 ... [详细]

蜡笔小新 2024-12-25 19:15:51
dom
深入剖析电子邮件系统的安全漏洞及防范措施

随着网络安全威胁的不断演变，电子邮件系统成为攻击者频繁利用的目标。本文详细探讨了电子邮件系统中的常见漏洞及其潜在风险，并提供了专业的防护建议。 ... [详细]

蜡笔小新 2024-12-25 17:59:04
html
使用Xshell通过SSH协议远程连接Ubuntu系统

本文介绍如何通过SSH协议使用Xshell远程连接到Ubuntu系统。为了实现这一目标，需要确保Ubuntu系统已安装并配置好SSH服务器，并保证网络连通性。 ... [详细]

蜡笔小新 2024-12-25 16:29:11
html
微软Exchange服务器遭遇2022年版“千年虫”漏洞

微软Exchange服务器在新年伊始遭遇了一个类似于‘千年虫’的日期处理漏洞，导致邮件传输受阻。该问题主要影响配置了FIP-FS恶意软件引擎的Exchange 2016和2019版本。 ... [详细]

蜡笔小新 2024-12-25 14:08:03
focus
TechStride 网站

TechStride 成立于2014年初，致力于互联网前沿技术、产品创意及创业内容的聚合、搜索、学习与展示。我们旨在为互联网从业者提供更高效的新技术搜索、学习、分享和产品推广平台。 ... [详细]

蜡笔小新 2024-12-24 20:04:54
focus
解读MySQL查询执行计划的详细指南

本文旨在帮助开发者和数据库管理员深入了解如何解读MySQL查询执行计划。通过详细的解析，您将掌握优化查询性能的关键技巧，了解各种访问类型和额外信息的含义。 ... [详细]

蜡笔小新 2024-12-26 20:10:30
focus
程序员的心灵迷茫与自我探索

作为一名程序员，从大学步入职场后，常常感受到一种难以言喻的空虚感。这种感觉或许源于对生活的不满、职业发展的瓶颈，或是日常琐事带来的压力。本文将深入探讨这种复杂的情感，并尝试寻找解决之道。 ... [详细]

蜡笔小新 2024-12-26 11:08:05

yfx132435

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章