浅谈python中的字符编码与转码

作者：ik人生如梦场 | 来源：互联网 | 2023-09-12 12:12

ASCII码ASCII码就是机器能识别的单字节编码系统，它是单字节的。Unicode编码Unicode编码是一种统一码、万国码、单一码，它能编码任何国

ASCII码
ASCII码就是机器能识别的单字节编码系统&＃xff0c;它是单字节的。

Unicode编码
Unicode编码是一种统一码、万国码、单一码&＃xff0c;它能编码任何国家的语言&＃xff0c;Unicode编码不管英文还是中文最少都是占两个字节。

UTF-8编码
UTF-8编码是从Unicode编码上衍生出来的一种编码&＃xff0c;是对Unicode编码的压缩和优化&＃xff0c;他不再使用最少使用2个字节&＃xff0c;而是将所有的字符和符号进行分类&＃xff1a;ascii码中的内容用1个字节保存、欧洲的字符用2个字节保存&＃xff0c;东亚的字符用3个字节保存。

GBK编码
GBK编码也是从Unicode编码上衍生出来的一种编码&＃xff0c;是咱们大中华民族的专属字符编码集。

这里写图片描述

从图中我们可以看出&＃xff0c;我们从一种编码转换成另一种编码&＃xff0c;例如&＃xff1a;GBK转UTF-8&＃xff0c;首先得解码&＃xff08;decode&＃xff09;成它们的始祖Unicode&＃xff0c;然后再编码&＃xff08;encode&＃xff09;成新的编码。

举例说明
python3的例子
这个例子是在python3环境中写的&＃xff0c;python3环境默认的字符串编码是unicode&＃xff0c;所以我们的写字符串都是unicode编码的&＃xff0c;--coding:utf-8 --这个的意思是该.py文件是utf-8 编码的。

# -*-coding:utf-8 -*- # Author:Moroccos &＃61; "你好" unicode_to_utf&＃61;s.encode("utf-8")#unicode编码成utf-8 print(s.encode("utf-8").decode("utf-8"))

注意&＃xff1a;
1、python3环境下如果不进行解码成Unicode&＃xff0c;它打印出来的是一个bytes类型的编码方式&＃xff0c;终端一般都是Unicode编码方式&＃xff0c;所以最后一定得加上.decode("utf-8") 转成Unicode编码。
2、默认编码方式和--coding:utf-8 - 设置的文件编码方式不是同一个含义&＃xff0c;默认的编码方式只是指该python3环境中的字符串编码&＃xff0c;这是我们不能设置的&＃xff0c;而我们所能设置的编码方式是文件编码方式&＃xff0c;因为我们的文件不仅有所谓的字符串还有其他的代码。

python2.X例子
这里直接引用的是Python2.X中的编码转换
python3笔者认为是主流&＃xff0c;把python3弄清楚就好。python2.X中的编码方式有点不苟同&＃xff0c;它默认的字符串编码是ASCII编码&＃xff0c;当我们指定文件编码为utf-8编码时&＃xff0c;字符串编码就变成了utf-8。但在python3中却不是这样的&＃xff01;&＃xff01;&＃xff01;因为你即使改变了它的文件编码方式&＃xff0c;它的字符串编码还是Unicode编码。

推荐阅读

header
HTTP请求与响应机制详解

本文深入探讨了HTTP请求和响应对象的使用，详细介绍了如何通过响应对象向客户端发送数据、处理中文乱码问题以及常见的HTTP状态码。此外，还涵盖了文件下载、请求重定向、请求转发等高级功能。 ... [详细]

蜡笔小新 2024-12-23 20:40:08
int
掌握远程执行Linux脚本和命令的技巧

本文将详细介绍如何利用Python的Paramiko库实现远程执行Linux脚本和命令，帮助读者快速掌握这一实用技能。通过具体的示例和详尽的解释，让初学者也能轻松上手。 ... [详细]

蜡笔小新 2024-12-26 19:47:05
int
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
int
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20
int
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新 2024-12-26 22:04:19
runtime
从 .NET 转 Java 的自学之路：IO 流基础篇

本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ... [详细]

蜡笔小新 2024-12-26 17:37:25
int
Python 爬虫基础教程及代码实例

根据最新发布的《互联网人才趋势报告》，尽管大量IT从业者已转向Python开发，但随着人工智能和大数据领域的迅猛发展，仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-26 10:42:40
int
Python文本处理与可视化：分词及词云生成

本文介绍如何使用Python进行文本处理，包括分词和生成词云图。通过整合多个文本文件、去除停用词并生成词云图，展示文本数据的可视化分析方法。 ... [详细]

蜡笔小新 2024-12-26 08:37:18
int
DLP数据泄露检测原理浅析

最近团队在部署DLP，作为一个技术人员对于黑盒看不到的地方还是充满了好奇心。多次咨询乙方人员DLP的算法原理是什么，他们都以商业秘密为由避而不谈，不得已只能自己查资料学习，于是有了下面的浅见。身为甲方，虽然不需要开发DLP产品，但是也有必要弄明白DLP基本的原理。俗话说工欲善其事必先利其器，只有在懂这个工具的原理之后才能更加灵活地使用这个工具，即使出现意外情况也能快速排错，越接近底层，越接近真相。根据DLP的实际用途，本文将DLP检测分为2部分，泄露关键字检测和近似重复文档检测。 ... [详细]

蜡笔小新 2024-12-25 18:19:32
int
使用Pandas高效读取SQL脚本中的数据

本文详细介绍了如何利用Pandas直接读取和解析SQL脚本，提供了一种高效的数据处理方法。该方法适用于各种数据库导出的SQL脚本，并且能够显著提升数据导入的速度和效率。 ... [详细]

蜡笔小新 2024-12-24 21:56:10
int
深入解析Redis内存对象模型

本文详细介绍了Redis内存对象模型的关键知识点，包括内存统计、内存分配、数据存储细节及优化策略。通过实际案例和专业分析，帮助读者全面理解Redis内存管理机制。 ... [详细]

蜡笔小新 2024-12-23 14:50:23
header
Python处理Word文档的高效技巧

本文详细介绍了如何使用Python处理Word文档，涵盖从基础操作到高级功能的各种技巧。我们将探讨如何生成文档、定义样式、提取表格数据以及处理超链接和图片等内容。 ... [详细]

蜡笔小新 2024-12-23 10:40:32
rsa
Scala 实现 UTF-8 编码属性文件读取与克隆

本文介绍如何使用 Scala 以 UTF-8 编码方式读取属性文件，并实现属性文件的克隆功能。通过这种方式，可以确保配置文件在多线程环境下的一致性和高效性。 ... [详细]

蜡笔小新 2024-12-26 08:25:19
hash
HBase运维工具全解析

本文深入探讨了HBase常用的运维工具，详细介绍了每种工具的功能、使用场景及操作示例。对于HBase的开发人员和运维工程师来说，这些工具是日常管理和故障排查的重要手段。 ... [详细]

蜡笔小新 2024-12-24 17:00:59
int
开发笔记:2020 BJDCTF Re encode

开发笔记:2020 BJDCTF Re encode ... [详细]

蜡笔小新 2024-12-24 09:26:02

ik人生如梦场

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章