php各种编码集详解和在什么情况下进行使用

作者：敦恒 | 来源：互联网 | 2013-04-22 17:18

字符是各种文字和符号的总称，包括各国家文字、标点符号、图形符号、数字等。字符集是多个字符的集合，字符集种类较多，每个字符集包含的字符个数不同，常见字符集名称：ASCII字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等。计算机要">

　　字符是各种文字和符号的总称，包括各国家文字、标点符号、图形符号、数字等。字符集是多个字符的集合，字符集种类较多，每个字符集包含的字符个数不同，常见字符集名称：ASCII字符集、GB2312字符集、BIG5字符集、 GB 18030字符集、Unicode字符集等。计算机要准确的处理各种字符集文字，需要进行字符编码，以便计算机能够识别和存储各种文字。

　　中文文字数目大，而且还分为简体中文和繁体中文两种不同书写规则的文字，而计算机最初是按英语单字节字符设计的，因此，对中文字符进行编码，是中文信息交流的技术基础。本文将按照字符集的时间顺序讨论几种典型的字符集，选取几种代表性的中文字符集，研究历史由来、特点、技术特征。

　　ASCII 字符集

　　1.名称的由来

　　ASCII(American Standard Code for Information Interchange，美国信息互换标准代码)是基于罗马字母表的一套电脑编码系统。

　　2.特点

　　它主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统，并等同于国际标准ISO 646。

　　3.包含内容

　　控制字符：回车键、退格、换行键等。

　　可显示字符：英文大小写字符、阿拉伯数字和西文符号

　　4.技术特征

　　7位(bits)表示一个字符，共128字符

　　5.ASCII扩展字符集

　　7位编码的字符集只能支持128个字符，为了表示更多的欧洲常用字符对ASCII进行了扩展，ASCII扩展字符集使用8位(bits)表示一个字符，共256字符。

　　ASCII扩展字符集比ASCII字符集扩充出来的符号包括表格符号、计算符号、希腊字母和特殊的拉丁符号。

　　GB2312 字符集

　　1.名称的由来

　　GB2312又称为GB2312-80字符集，全称为《信息交换用汉字编码字符集·基本集》，由原中国国家标准总局发布，1981年5月1日实施。

　　2.特点

　　GB2312是中国国家标准的简体中文字符集。它所收录的汉字已经覆盖99.75%的使用频率，基本满足了汉字的计算机处理需要。在中国大陆和新加坡获广泛使用。

　　3.包含内容

　　GB2312收录简化汉字及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母，共 7445 个图形字符。其中包括6763个汉字，其中一级汉字3755个，二级汉字3008个;包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。

　　4.技术特征

　　(1)分区表示：

　　GB2312中对所收汉字进行了“分区”处理，每区含有94个汉字/符号。这种表示方式也称为区位码。

　　各区包含的字符如下：01-09区为特殊符号;16-55区为一级汉字，按拼音排序;56-87区为二级汉字，按部首/笔画排序;10-15区及88-94区则未有编码。

　　(2)双字节表示

　　两个字节中前面的字节为第一字节，后面的字节为第二字节。习惯上称第一字节为“高字节” ，而称第二字节为“低字节”。

　　“高位字节”使用了0xA1-0xF7(把01-87区的区号加上0xA0)，“低位字节”使用了0xA1-0xFE(把01-94加上0xA0)。

　　5.编码举例

　　以GB2312字符集的第一个汉字“啊”字为例，它的区号16，位号01，则区位码是1601，在大多数计算机程序中，高字节和低字节分别加0xA0得到程序的汉字处理编码0xB0A1。计算公式是：0xB0=0xA0+16, 0xA1=0xA0+1。

　　BIG5 字符集

　　1.名称的由来

　　又称大五码或五大码，1984年由台湾财团法人信息工业策进会和五间软件公司宏碁 (Acer)、神通 (MiTAC)、佳佳、零壹 (Zero One)、大众 (FIC)创立，故称大五码。

　　Big5码的产生，是因为当时台湾不同厂商各自推出不同的编码，如倚天码、IBM PS55、王安码等，彼此不能兼容;另一方面，台湾政府当时尚未推出官方的汉字编码，而中国大陆的GB2312编码亦未有收录繁体中文字。

　　2.特点

　　Big5字符集共收录13,053个中文字，该字符集在中国台湾使用。耐人寻味的是该字符集重复地收录了两个相同的字：“兀”(0xA461及0xC94A)、“嗀”(0xDCD1及0xDDFC)。

　　3.字符编码方法

　　Big5码使用了双字节储存方法，以两个字节来编码一个字。第一个字节称为“高位字节”，第二个字节称为“低位字节”。高位字节的编码范围0xA1-0xF9，低位字节的编码范围0x40-0x7E及0xA1-0xFE。

　　各编码范围对应的字符类型如下：0xA140-0xA3BF为标点符号、希腊字母及特殊符号，另外于0xA259-0xA261，存放了双音节度量衡单位用字：兙兛兞兝兡兣嗧瓩糎;0xA440-0xC67E为常用汉字，先按笔划再按部首排序;0xC940-0xF9D5为次常用汉字，亦是先按笔划再按部首排序。

　　4.Big5 的局限性

　　尽管Big5码内包含一万多个字符，但是没有考虑社会上流通的人名、地名用字、方言用字、化学及生物科等用字，没有包含日文平假名及片假名字母。

　　例如台湾视“着”为“著”的异体字，故没有收录“着”字。康熙字典中的一些部首用字(如“亠”、“疒”、“辵”、“癶”等)、常见的人名用字(如“堃”、“煊”、“栢”、“喆”等) 也没有收录到Big5之中。

　　GB18030 字符集

　　1.名称的由来

　　GB 18030的全称是GB18030-2000《信息交换用汉字编码字符集基本集的扩充》，是我国政府于2000年3月17日发布的新的汉字编码国家标准，2001年8月31日后在中国市场上发布的软件必须符合本标准

　　2.特点

　　GB 18030字符集标准的出台经过广泛参与和论证，来自国内外知名信息技术行业的公司，信息产业部和原国家质量技术监督局联合实施。

　　GB 18030字符集标准解决汉字、日文假名、朝鲜语和中国少数民族文字组成的大字符集计算机编码问题。该标准的字符总编码空间超过150万个编码位，收录了27484个汉字，覆盖中文、日文、朝鲜语和中国少数民族文字。满足中国大陆、香港、台湾、日本和韩国等东亚地区信息交换多文种、大字量、多用途、统一编码格式的要求。并且与Unicode 3.0版本兼容，填补Unicode扩展字符字汇“统一汉字扩展A”的内容。并且与以前的国家字符编码标准(GB2312，GB13000.1)兼容。

　　3.编码方法

　　GB 18030标准采用单字节、双字节和四字节三种方式对字符编码。单字节部分使用0×00至0×7F码(对应于ASCII码的相应码)。双字节部分，首字节码从0×81至0×FE，尾字节码位分别是0×40至0×7E和0×80至0×FE。四字节部分采用GB/T 11383未采用的0×30到0×39作为对双字节编码扩充的后缀，这样扩充的四字节编码，其范围为0×81308130到0×FE39FE39。其中第一、三个字节编码码位均为0×81至0×FE，第二、四个字节编码码位均为0×30至0×39。

　　4.包含的内容

　　双字节部分收录内容主要包括GB13000.1全部CJK汉字20902个、有关标点符号、表意文字描述符13个、增补的汉字和部首/构件80个、双字节编码的欧元符号等。　　四字节部分收录了上述双字节字符之外的，包括CJK统一汉字扩充A在内的GB 13000.1中的全部字符。

　　Unicode字符集

　　1.名称的由来

　　Unicode字符集编码是Universal Multiple-Octet Coded Character Set 通用多八位编码字符集的简称，是由一个名为 Unicode 学术学会(Unicode Consortium)的机构制订的字符编码系统，支持现今世界各种不同语言的书面文本的交换、处理及显示。该编码于1990年开始研发，1994年正式公布，最新版本是2005年3月31日的Unicode 4.1.0。

　　2.特征

　　Unicode是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。

　　3.编码方法

　　Unicode 标准始终使用十六进制数字，而且在书写时在前面加上前缀“U+”，例如字母“A”的编码为 004116 和字符“?”的编码为 20AC16。所以“A”的编码书写为“U+0041”。

　　4.UTF-8 编码

　　UTF-8是Unicode的其中一个使用方式。 UTF是 Unicode Translation Format，即把Unicode转做某种格式的意思。

　　UTF-8便于不同的计算机之间使用网络传输不同语言和编码的文字，使得双字节的Unicode能够在现存的处理单字节的系统上正确传输。

　　UTF-8使用可变长度字节来储存 Unicode字符，例如ASCII字母继续使用1字节储存，重音文字、希腊字母或西里尔字母等使用2字节来储存，而常用的汉字就要使用3字节。辅助平面字符则使用4字节。

　　5.UTF-16 和 UTF-32 编码

　　UTF-32、UTF-16 和 UTF-8 是 Unicode 标准的编码字符集的字符编码方案，UTF-16 使用一个或两个未分配的 16 位代码单元的序列对 Unicode 代码点进行编码;UTF-32 即将每一个 Unicode 代码点表示为相同值的 32 位整数。

　　php 各种应用乱码问题的解决方法

　　1) 使用标签设置页面编码

　　这个标签的作用是声明客户端的浏览器用什么字符集编码显示该页面，xxx 可以为 GB2312、GBK、UTF-8(和 MySQL 不同，MySQL 是 UTF8)等等。因此，大部分页面可以采用这种方式来告诉浏览器显示这个页面的时候采用什么编码，这样才不会造成编码错误而产生乱码。但是有的时候我们会发现有了这句还是不行，不管 xxx 是哪一种，浏览器采用的始终都是一种编码，这个情况我后面会谈到。

　　请注意，是属于 HTML 信息的，仅仅是一个声明，仅表明服务器已经把 HTML 信息传到了浏览器。

　　2) header("content-type:text/html; charset=xxx");

　　这个函数 header() 的作用是把括号里面的信息发到 http 标头。如果括号里面的内容为文中所说那样，那作用和标签基本相同，大家对照第一个看发现字符都差不多的。但是不同的是如果有这段函数，浏览器就会永远采用你所要求的 xxx 编码，绝对不会不听话，因此这个函数是很有用的。为什么会这样呢?那就得说说 http 标头和 HTML信息的差别了：

　　http 标头是服务器以 http 协议传送 HTML 信息到浏览器前所送出的字串。而标签是属于 HTML 信息的，所以 header() 发送的内容先到达浏览器，通俗点就是 header() 的优先级高于 (不知道可不可以这样讲)。假如一个 php 页面既有header("content-type:text/html;charset=xxx")，又有，浏览器就只认前者 http 标头而不认 meta 了。当然这个函数只能在 php 页面内使用。

　　同样也留有一个问题，为什么前者就绝对起作用，而后者有时候就不行呢?这就是接下来要谈的Apache 的原因了。

　　3) AddDefaultCharset

　　Apache 根目录的 conf 文件夹里，有整个 Apache 的配置文档 httpd.conf。

　　用文本编辑器打开 httpd.conf，第 708 行(不同版本可能不同)有 AddDefaultCharset xxx，xxx为编码名称。这行代码的意思：设置整个服务器内的网页文件 http 标头里的字符集为你默认的 xxx字符集。有这行，就相当于给每个文件都加了一行 header("content-type:text/html; charset=xxx")。这下就明白为什么明明设置了是 utf-8，可浏览器始终采用 gb2312 的原因。

　　如果网页里有 header("content-type:text/html; charset=xxx")，就把默认的字符集改为你设置的字符集，所以这个函数永远有用。如果把 AddDefaultCharset xxx 前面加个"#"，注释掉这句，而且页面里不含 header("content-type…")，那这个时候就轮到 meta 标签起作用了。

　　下面列出以上的优先顺序：

　　header("content-type:text/html; charset=xxx")

　　.. AddDefaultCharset xxx

　　如果你是 web 程序员，建议给你的每个页面都加个header("content-type:text/html;charset=xxx")，这样就可以保证它在任何服务器都能正确显示，可移植性也比较强。

　　4) php.ini 中的 default_charset 配置：

　　php.ini 中的 default_charset = "gb2312" 定义了 php 的默认语言字符集。一般推荐注释掉此行，让浏览器根据网页头中的 charset 来自动选择语言而非做一个强制性的规定，这样就可以在同台服务器上提供多种语言的网页服务。

推荐阅读

php
在Linux环境下Apache服务器中CGI技术的应用与实现

在Linux环境下，本文详细探讨了Apache服务器中CGI技术的应用与实现。首先，通过使用yum包管理器安装了必要的软件，如PHP。安装完成后，对Apache服务器进行了配置，确保CGI功能正常运行。此外，还介绍了如何编写和调试CGI脚本，以及如何在实际环境中部署这些脚本以提供动态网页内容。实验结果表明，通过合理的配置和优化，Apache服务器能够高效地支持CGI应用程序，为用户提供丰富的交互体验。 ... [详细]

蜡笔小新 2024-11-01 10:26:04
sum
PHP应用性能优化实战指南：从理论到实践的全面解析

在《PHP应用性能优化实战指南：从理论到实践的全面解析》一文中，作者分享了一次实际的PHP应用优化经验。文章回顾了先前进行的一次优化项目，指出即使系统运行时间较长后出现的各种问题和性能瓶颈，通过采用一些通用的优化策略仍然能够有效解决。文中不仅详细阐述了优化的具体步骤和方法，还结合实例分析了优化前后的性能对比，为读者提供了宝贵的参考和借鉴。 ... [详细]

蜡笔小新 2024-10-31 20:54:49
int
如何将PHP文件上传至服务器及正确配置服务器地址

如何将PHP文件上传至服务器及正确配置服务器地址 ... [详细]

蜡笔小新 2024-10-31 15:32:47
copy
Java中高级工程师面试必备：JVM核心知识点全面解析

对于软件开发人员而言，随着技术框架的不断演进和成熟，许多高级功能已经被高度封装，使得初级开发者只需掌握基本用法即可迅速完成项目。然而，对于中高级工程师而言，深入了解Java虚拟机（JVM）的核心知识点是必不可少的。这不仅有助于优化性能和解决复杂问题，还能在面试中脱颖而出。本文将全面解析JVM的关键概念和技术细节，帮助读者全面提升技术水平。 ... [详细]

蜡笔小新 2024-10-31 10:20:42
jsp
深入解析Tomcat：开发者的实用指南

深入解析Tomcat：开发者的实用指南 ... [详细]

蜡笔小新 2024-10-31 09:46:02
ascii
Java 零基础入门：SQL Server 学习笔记（第21篇）

Java 零基础入门：SQL Server 学习笔记（第21篇） ... [详细]

蜡笔小新 2024-10-31 03:32:00
int
MySQL性能优化与调参指南【数据库管理】

本文详细探讨了MySQL数据库的性能优化与参数调整技巧，旨在帮助数据库管理员和开发人员提升系统的运行效率。内容涵盖索引优化、查询优化、配置参数调整等方面，结合实际案例进行深入分析，提供实用的操作建议。此外，还介绍了常见的性能监控工具和方法，助力读者全面掌握MySQL性能优化的核心技能。 ... [详细]

蜡笔小新 2024-10-31 03:13:07
int
Django框架下的对象关系映射（ORM）详解

在Django框架中，对象关系映射（ORM）技术是解决面向对象编程与关系型数据库之间不兼容问题的关键工具。通过将数据库表结构映射到Python类，ORM使得开发者能够以面向对象的方式操作数据库，从而简化了数据访问和管理的复杂性。这种技术不仅提高了代码的可读性和可维护性，还增强了应用程序的灵活性和扩展性。 ... [详细]

蜡笔小新 2024-10-30 15:30:10
php
如何利用Apache与Nginx高效实现动静态内容分离

如何利用Apache与Nginx高效实现动静态内容分离 ... [详细]

蜡笔小新 2024-10-29 21:47:55
main
深入解析Wget CVE-2016-4971漏洞的利用方法与安全防范措施

### 摘要Wget 是一个广泛使用的命令行工具，用于从 Web 服务器下载文件。CVE-2016-4971 漏洞涉及 Wget 在处理特定 HTTP 响应头时的缺陷，可能导致远程代码执行。本文详细分析了该漏洞的成因、利用方法以及相应的安全防范措施，包括更新 Wget 版本、配置防火墙规则和使用安全的 HTTP 头。通过这些措施，可以有效防止潜在的安全威胁。 ... [详细]

蜡笔小新 2024-10-29 14:04:47
hash
NoSQL 数据查询与检索技术解析

NoSQL数据库，即非关系型数据库，有时也被称作Not Only SQL，是一种区别于传统关系型数据库的管理系统。这类数据库设计用于处理大规模、高并发的数据存储与查询需求，特别适用于需要快速读写大量非结构化或半结构化数据的应用场景。NoSQL数据库通过牺牲部分一致性来换取更高的可扩展性和性能，支持分布式部署，能够有效应对互联网时代的海量数据挑战。 ... [详细]

蜡笔小新 2024-10-28 18:13:15
int
信息漏洞概述与基础知识（第一部分）

本文首先对信息漏洞的基础知识进行了概述，重点介绍了几种常见的信息泄露途径。具体包括目录遍历、PHPINFO信息泄露以及备份文件的不当下载。其中，备份文件下载涉及网站源代码、`.bak`文件、Vim缓存文件和`DS_Store`文件等。目录遍历漏洞的详细分析为后续深入研究奠定了基础。 ... [详细]

蜡笔小新 2024-10-31 19:32:18
int
从无到有，构建个人专属的操作系统解决方案

操作系统（OS）被誉为程序员的三大浪漫之一，常被比喻为计算机的灵魂、大脑、内核和基石，其重要性不言而喻。本文将详细介绍如何从零开始构建个人专属的操作系统解决方案，涵盖从需求分析到系统设计、开发与测试的全过程，帮助读者深入理解操作系统的本质与实现方法。 ... [详细]

蜡笔小新 2024-10-31 18:17:13
int
Twitter架构深度解析与学习心得

作为140字符的开创者，Twitter看似简单却异常复杂。其简洁之处在于仅用140个字符就能实现信息的高效传播，甚至在多次全球性事件中超越传统媒体的速度。然而，为了支持2亿用户的高效使用，其背后的技术架构和系统设计则极为复杂，涉及高并发处理、数据存储和实时传输等多个技术挑战。 ... [详细]

蜡笔小新 2024-10-31 17:58:20
php
初探ActiveMQ：消息队列技术入门指南

ActiveMQ是由Apache开发的一款广受欢迎且功能强大的开源消息中间件。作为完全符合JMS 1.1和J2EE 1.4规范的JMS Provider实现，尽管JMS规范已问世多年，但ActiveMQ依然保持了其在消息队列领域的领先地位。本文将带你初步了解ActiveMQ的核心概念及其应用场景，帮助你快速入门这一重要的消息传递技术。 ... [详细]

蜡笔小新 2024-10-29 13:32:49

敦恒

招聘！招聘！招聘! 联系方式：56226135/shiziqian@hy9z.com 请优先邮件联系~谢谢！

Tags | 热门标签

RankList | 热门文章