正确理解和使用GBK及UTF8编码

作者：平和-3699 | 来源：互联网 | 2023-09-07 15:50

网页编码英文译为webpageencoding，是在网页中指定其特定的字符编码格式的库。GBK是国家标准GB2312基础上扩容后兼容GB2312的标准。GBK的文字编码是用双字节来

网页编码英文译为web page encoding，是在网页中指定其特定的字符编码格式的库。

GBK是国家标准GB2312基础上扩容后兼容GB2312的标准。GBK的文字编码是用双字节来表示的，即不论中、英文字符均使用双字节来表示，为了区分中文，将其最高位都设定成1。GBK包含全部中文字符，是国家编码，通用性比UTF8差，不过UTF8占用的数据库比GBK大。

UTF-8：Unicode TransformationFormat-8bit，允许含BOM，但通常不含BOM。是用以解决国际上字符的一种多字节编码，它对英文使用8位（即一个字节），中文使用24为（三个字节）来编码。UTF-8包含全世界所有国家需要用到的字符，是国际编码，通用性强。UTF-8编码的文字可以在各国支持UTF8字符集的浏览器上显示。如果是UTF8编码，则在外国人的英文IE上也能显示中文，他们无需下载IE的中文语言支持包。

UTF-8版本虽然具有良好的国际兼容性，但中文需要比GBK/BIG5版本多占用50%的数据库存储空间，因此并非推荐使用，仅供对国际兼容性有特殊要求的用户使用。简单地说：对于中文较多的网站，适宜用GBK编码节省数据库空间。对于英文较多的网站，适宜用UTF-8节省数据库空间。

GBK、GB2312等与UTF8如何转换？GBK、GB2312等与UTF8之间都必须通过Unicode编码才能相互转换：GBK、GB2312——Unicode——UTF8；UTF8——Unicode——GBK、GB2312。使用Windows记事本的“另存为”，可以在GBK、Unicode、Unicode big endian和UTF-8这几种编码方式间相互转换。

如何让浏览器正确识别网页编码？一般在网页中都要有如下一句：，指示此网页的字符集编码是GB2312。（或者UTF-8）

页面有时候指定了编码为什么有时会出现乱码？这可能是页面申明编码与文件本身编码不一致，更多时候是以错误编码打开页面然后保存导致的，或者是用某些FTP软件直接在线修改文件，比如CuteFTP，由于软件编码配置错误而导致转换错了编码。这时候使用window的记事本打开，用“另存为”保存为对应的编码即可解决问题。

在windows操作系统上使用IE作为浏览器时，常常会发生这样的问题：在浏览使用UTF-8编码的网页时，浏览器无法自动识别该页面所用的编码，即使网页已经声明过编码格式：，由此造成某些含有中文UTF-8编码的页面产生空白输出。如果使用的是Firefox、Sarafi的浏览器这不会造成这个问题。这是由于IE解析网页编码时以HTML内的标签优先，而后才是HTTP header内的讯息，而mozilla系列的浏览器则刚刚相反。

由于UTF-8为3个字节表示一个汉子，而普通的GB2312或BIG5是两个。页面输出时，由于上述原因，使浏览器解析、输出的内容时，如果在前有奇数个全角字符，IE把UTF-8当作两个字节解析时出现半个汉字的情况，这时该半个汉字会和的<结合成一个乱码字，导致IE无法读完之前。

推荐阅读

文件
2016-2017学年《网络安全实战》第三次作业

2016-2017学年《网络安全实战》第三次作业总结了教材中关于网络信息收集技术的内容。本章主要探讨了网络踩点、网络扫描和网络查点三个关键步骤。其中，网络踩点旨在通过公开渠道收集目标信息，为后续的安全测试奠定基础，而不涉及实际的入侵行为。 ... [详细]

蜡笔小新 2024-11-04 13:00:16
文件
基于Net Core 3.0与Web API的前后端分离开发：Vue.js在前端的应用

本文介绍了如何使用Net Core 3.0和Web API进行前后端分离开发，并重点探讨了Vue.js在前端的应用。后端采用MySQL数据库和EF Core框架进行数据操作，开发环境为Windows 10和Visual Studio 2019，MySQL服务器版本为8.0.16。文章详细描述了API项目的创建过程、启动步骤以及必要的插件安装，为开发者提供了一套完整的开发指南。 ... [详细]

蜡笔小新 2024-11-11 10:58:21
文件
Spark 弹性分布式数据集详解

本文详细介绍了 Spark 中的弹性分布式数据集（RDD）及其常见的操作方法，包括 union、intersection、cartesian、subtract、join、cogroup 等转换操作，以及 count、collect、reduce、take、foreach、first、saveAsTextFile 等行动操作。 ... [详细]

蜡笔小新 2024-11-14 15:44:57
文件
MySQL 数据迁移时 .frm 文件报错问题

本文讨论了在进行 MySQL 数据迁移过程中遇到的所有 .frm 文件报错的问题，并提供了详细的解决方案和建议。 ... [详细]

蜡笔小新 2024-11-12 10:47:49
文件
FTP无法显示实时服务器上具有相同配置的文件列表

在IIS上运行的WebApi应用程序在开发环境中能够正常进行文件的读写操作。然而，在尝试通过FTP访问实时服务器上的文件列表时，遇到了无法显示的问题，尽管服务器配置与开发环境相同。这可能涉及权限设置、FTP服务配置或网络连接等方面的问题。 ... [详细]

蜡笔小新 2024-11-05 18:05:41
文件
浅析python实现布隆过滤器及Redis中的缓存穿透原理_python

本文带你了解了位图的实现，布隆过滤器的原理及Python中的使用，以及布隆过滤器如何应对Redis中的缓存穿透，相信你对布隆过滤 ... [详细]

蜡笔小新 2024-11-13 16:43:07
文件
深入解析HTTP头部中的Expires与Cache-Control字段及其缓存机制

本文深入探讨了HTTP头部中的Expires与Cache-Control字段及其缓存机制。Cache-Control字段主要用于控制HTTP缓存行为，其在HTTP/1.1中得到了广泛应用，而HTTP/1.0中主要使用Pragma:no-cache来实现类似功能。Expires字段则定义了资源的过期时间，帮助浏览器决定是否从缓存中读取资源。文章详细解析了这两个字段的具体用法、相互关系以及在不同场景下的应用效果，为开发者提供了全面的缓存管理指南。 ... [详细]

蜡笔小新 2024-11-06 18:48:33
文件
【图像分类实战】利用DenseNet在PyTorch中实现秃头识别

本文详细介绍了如何使用DenseNet模型在PyTorch框架下实现秃头识别。首先，文章概述了项目所需的库和全局参数设置。接着，对图像进行预处理并读取数据集。随后，构建并配置DenseNet模型，设置训练和验证流程。最后，通过测试阶段验证模型性能，并提供了完整的代码实现。本文不仅涵盖了技术细节，还提供了实用的操作指南，适合初学者和有经验的研究人员参考。 ... [详细]

蜡笔小新 2024-11-06 15:21:35
random
探索聚类分析中的K-Means与DBSCAN算法及其应用

聚类分析是一种用于解决样本或特征分类问题的统计分析方法，也是数据挖掘领域的重要算法之一。本文主要探讨了K-Means和DBSCAN两种聚类算法的原理及其应用场景。K-Means算法通过迭代优化簇中心来实现数据点的划分，适用于球形分布的数据集；而DBSCAN算法则基于密度进行聚类，能够有效识别任意形状的簇，并且对噪声数据具有较好的鲁棒性。通过对这两种算法的对比分析，本文旨在为实际应用中选择合适的聚类方法提供参考。 ... [详细]

蜡笔小新 2024-11-04 13:20:39
random
在CentOS上部署并使用FFmpeg多媒体处理工具

最近在进行音频处理时需要用到FFmpeg，本文将详细介绍如何在CentOS系统上部署并使用这一强大的多媒体处理工具。首先，从官方网站下载FFmpeg的最新版本，然后通过Xftp工具将下载的压缩包（如ffmpeg-4.3.1.tar.xz）传输到服务器上。接下来，解压文件并按照官方文档进行编译安装。安装完成后，可以通过命令行工具验证FFmpeg是否成功安装，并开始进行多媒体文件的转换和处理。此外，文章还将介绍一些常用的FFmpeg命令和参数，帮助用户快速上手。 ... [详细]

蜡笔小新 2024-11-03 17:14:18
random
华为AP3010DNAGN从胖AP转换为瘦AP的过程及版本升级详细记录

华为AP3010DNAGN从胖AP模式转换为瘦AP模式的过程及其版本升级的详细记录如下：首先，需要了解胖AP与瘦AP的区别。瘦AP（FIT）模式下，设备无法独立运行Wi-Fi功能，必须与AC控制器配合使用，适用于企业多AP的集中管理场景。本文将详细介绍转换步骤和版本升级的具体操作，帮助用户顺利完成配置。 ... [详细]

蜡笔小新 2024-11-03 09:34:46
random
从零开始掌握PyTorch：生成对抗网络GAN进阶指南（第九篇）

本文将深入探讨生成对抗网络（GAN）在计算机视觉领域的应用。作为该领域的经典模型，GAN通过生成器和判别器的对抗训练，能够高效地生成高质量的图像。本文不仅回顾了GAN的基本原理，还将介绍一些最新的进展和技术优化方法，帮助读者全面掌握这一重要工具。 ... [详细]

蜡笔小新 2024-11-02 13:18:42
random
解决SWFUpload在本地测试成功但服务器上出现404或500错误的方法

在使用SWFUpload进行图片批量上传时，尽管本地测试一切正常，但在部署到服务器后却遇到了404和500错误。经过详细排查，发现404错误的原因在于`flash_url`和`upload_url`需要配置为绝对路径。此外，500错误可能是由于服务器端的权限设置或脚本错误导致，建议检查服务器日志以获取更多调试信息。通过这些调整，最终成功解决了问题。 ... [详细]

蜡笔小新 2024-10-30 17:27:12
random
深入解析OSI七层架构与TCP/IP协议体系

本文详细探讨了OSI七层模型（Open System Interconnection，开放系统互连）及其与TCP/IP协议体系的关系。OSI模型将网络通信过程划分为七个层次，每个层次负责不同的功能，从物理层到应用层逐步实现数据传输和处理。通过对比分析，本文揭示了OSI模型与TCP/IP协议在结构和功能上的异同，为理解现代网络通信提供了全面的视角。 ... [详细]

蜡笔小新 2024-10-30 12:58:01
c语言
西北工业大学计算机科学考研指南

西北工业大学作为陕西省三所985和211高校之一，虽然在农业和林业领域不如某些顶尖院校，但在航空航天领域的实力尤为突出。该校的计算机科学专业在科研和教学方面也具有显著优势，是考研的理想选择。 ... [详细]

蜡笔小新 2024-10-29 19:04:10

平和-3699

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章