国家标准GB18030-2000《信息交换用汉字编码字符集基本集的扩充》是我国继GB2312-1980和GB13000-1993之后最重要的汉字编码标准,是我国计算机系统必须遵循的基础性标准之一。
GB18030主要有以下特点:
- 与UTF-8相同,采用多字节编码,每个字可以由1个、2个或4个字节组成。
- 编码空间庞大,最多可定义161万个字符。
- 支持中国国内少数民族的文字,不需要动用造字区。
- 汉字收录范围包含繁体汉字以及日韩汉字
目前,GB18030有两个版本:GB18030-2000和GB18030-2005。GB18030-2005是最新版本。
GB18030-2000是GBK的取代版本,它的主要特点是在GBK基础上增加了CJK统一汉字扩充A的汉字。
GB18030-2000编码标准是由信息产业部和国家质量技术监督局在2000年 3月17日联合发布的,并且将作为一项国家标准在2001年的1月正式强制执行。
GB18030-2005的主要特点是在GB18030-2000基础上增加了CJK统一汉字扩充B的汉字。
GB18030-2005《信息技术中文编码字符集》是我国自主研制的以汉字为主并包含多种我国少数民族文字(如藏、蒙古、傣、彝、朝鲜、维吾尔文等)的超大型中文编码字符集强制性标准,其中收入汉字70000余个。
GB18030-2005与GB18030-2000的编码体系结构是完全相同的。
2000年发布的GB18030-2000,全名是《信息技术 汉字编码字符集 基本集的扩充》。GB18030-2000仅规定了常用非汉字符号和27533个汉字(包括部首、部件等)的编码。
GB18030-2000是全文强制性标准,市场上销售的产品必须符合。
2005年发布的GB18030-2005在GB18030-2000的基础上增加了42711个汉字和多种我国少数民族文字的编码,增加的这些内容是推荐性的。
GB18030-2005为部分强制性标准,自发布之日起代替GB18030-2000。
GB18030,最新版本为GB18030-2005,其全称为中华人民共和国国家标准GB 18030-2005《信息技术 中文编码字符集》,是中华人民共和国现时最新的内码字集,是GB 18030-2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》的修订版。与GB2312-1980完全兼容,与GBK基本兼容,支持GB 13000及Unicode的全部统一汉字,共收录汉字70244个。
GB18030标准的初版是GB 18030-2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》,它是由中华人民共和国信息产业部电子工业标准化研究所、北京大学计算机技术研究所、北大方正集团、北京方正新天地信息网络科技有限责任公司、四通集团公司、中科院软件所、长城软件公司、四通利方公司、中软总公司、金山软件公司、联想公司起草,由国家质量技术监督局于2000年3月17日发布。
GB 18030标准从生效之日期起,同时代替原国家技术监督局标准化司和原电子工业部科技与质量监督司联合以技监标函1995229号文发布和实施的技术规范指导性文件《汉字内码扩展规范(GBK)》1.0版。
现行版本GB 18030-2005《信息技术 中文编码字符集》为GB 18030标准的第一次修订版,由国家质量监督检验总局和中国国家标准化管理委员会于2005年11月8日发布,2006年5月1日实施。本标准的单字节编码部分、双字节编码部分和四字节编码部分的CJK统一汉字扩充A(即0x8139EE39--0x82358738)部分为强制性。本标准代替GB 18030-2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》。
GB 18030-2000,兼容 Unicode 3.0 中日韩统一表意文字,共收27533个汉字;2000年3月17日发布
GB 18030-2005,更新至 Unicode 4.1 中日韩统一表意文字及增加少数民族文字,共有70244个汉字;2005年11月8日发布、2006年5月1日实施
GB 18030与Unicode的关系
GB 18030是一种对字符集的多字节编码格式,相当于UTF-8(对Unicode码点(code point)的编码传输格式),而且都是向后兼容ASCII,并且能表示所有的Unicode码点。GB 18030的四字节编码共有1,587,600 (126×10×126×10), 足以覆盖Unicode的1,111,998 (17×65536 ? 2048 surrogates ? 66 noncharacters)码点。此外,GB18030还向后兼容了GB 2312与GBK编码。与Unicode码点的映射关系(mapping)一部分要查表,其它可以通过算法求出,这与UTF-8相比不够方便。