Python：一图看懂Python2还是Python3的编码

作者：跟我搞对象吧 | 来源：互联网 | 2022-12-13 08:48

无论是Python2还是Python3，都使用unicode作为内存编码，简称内码。保存在python解释器内存中的文本，输出到屏幕、编辑器，或者保存成文件的时候

无论是Python2还是Python3，都使用unicode作为内存编码，简称内码。保存在python解释器内存中的文本，输出到屏幕、编辑器，或者保存成文件的时候，都要将内码转换成utf8或者gbk等编码格式；同样，python解释器从输入设备接收文本，或者从文件读取文本的时候，都要将utf8或者gbk等编码转换成unicode编码格式。因此，无论是Python2还是Python3，想要在unicode、utf8、gbk等编码格式之间转换的话，下图是通用的：

我们之所以会产生困惑，是因为py2和Python3给这些编码格式指定了令人困惑的名字。Python2的字符串有两种类型：unicode类型和str类型。Python2的unicode类型就是unicode编码，Python2的str类型泛指除unicode编码之外的所有编码，包括ascii编码、utf8编码、gbk编码、cp936编码等。Python3的字符串也有两种类型：bytes类型和str类型。Python3的str类型就是unicode编码，Python3的bytes类型泛指除unicode编码之外的所有编码，包括ascii编码、utf8编码、gbk编码、cp936编码等。同样是str类型，在Python2和Python3中完全颠倒了！下图稍微补充了一点内容，更有助于理解编码问题。

接下来，我们实战演练一下。

>>> s = &＃39;abc天圆地方&＃39;
>>> type(s)

>>> len(s)
7
>>> s
&＃39;abc天圆地方&＃39;
>>> print(s)
abc天圆地方
>>> s.encode(&＃39;unicode-escape&＃39;)
b&＃39;abc\\\u5929\\\u5706\\\u5730\\\u65b9&＃39;

不管是否在字符串前面加了u，只要不在字符串前面使用b，在IDLE中定义的字符串都是unicode编码，也就是py3的，其长度就是字符数量，不是字节数。我们把unicode字符串’abc天圆地方’转成utf8编码：

>>> s_utf8 = s.encode(&＃39;utf8&＃39;)
>>> type(s_utf8)

>>> len(s_utf8)
15
>>> s_utf8
b&＃39;abc\\xe5\\xa4\\xa9\\xe5\\x9c\\x86\\xe5\\x9c\\xb0\\xe6\\x96\\xb9&＃39;
>>> print(s_utf8)
b&＃39;abc\\xe5\\xa4\\xa9\\xe5\\x9c\\x86\\xe5\\x9c\\xb0\\xe6\\x96\\xb9&＃39;
>>> s_utf8.decode(&＃39;utf8&＃39;)
&＃39;abc天圆地方&＃39;

utf8编码就是bytes类型（字节码），长度就是字节数量。我们把unicode字符串’abc天圆地方’转成gbk编码：

>>> s_gbk= s.encode(&＃39;gbk&＃39;)
>>> type(s_gbk)

>>> len(s_gbk)
11
>>> s_gbk
b&＃39;abc\\xcc\\xec\\xd4\\xb2\\xb5\\xd8\\xb7\\xbd&＃39;
>>> print(s_gbk)
b&＃39;abc\\xcc\\xec\\xd4\\xb2\\xb5\\xd8\\xb7\\xbd&＃39;
>>> s_gbk.decode(&＃39;s_gbk&＃39;)
&＃39;abc天圆地方&＃39;

gbk编码也是bytes类型（字节码），长度也是字节数量。我们再来看看，不同编码的字节码能否连接：

>>> ss = s_utf8 + s_gbk
>>> ss
b&＃39;abc\\xe5\\xa4\\xa9\\xe5\\x9c\\x86\\xe5\\x9c\\xb0\\xe6\\x96\\xb9abc\\xcc\\xec\\xd4\\xb2\\xb5\\xd8\\xb7\\xbd&＃39;
>>> ss.decode(&＃39;utf8&＃39;)
Traceback (most recent call last):
 File "", line 1, in 
 ss.decode(&＃39;utf8&＃39;)
UnicodeDecodeError: &＃39;utf-8&＃39; codec can&＃39;t decode byte 0xcc in position 18: invalid continuation byte
>>> ss.decode(&＃39;gbk&＃39;)
&＃39;abc澶╁渾鍦版柟abc天圆地方&＃39;
>>> ss.decode(&＃39;utf8&＃39;, &＃39;ignore&＃39;)
&＃39;abc天圆地方abcԲط&＃39;
>>> ss.decode(&＃39;gbk&＃39;, &＃39;ignore&＃39;)
&＃39;abc澶╁渾鍦版柟abc天圆地方&＃39;

看以看出，不同编码的字节码可以连接，但一般不能解码成unicode（字符串），除非使用ignore参数。

推荐阅读

python
Jupyter Notebook多语言环境搭建指南

本文详细介绍了如何在Linux环境下为Jupyter Notebook配置Python、Python3、R及Go四种编程语言的环境，包括必要的软件安装和配置步骤。 ... [详细]

蜡笔小新 2024-11-20 18:37:27
utf-8
我与python约个会：29.企业级开发进阶1：文件输入输出流[IO操作]

农历五月初一宜声明变量"a"，提交代码；忌打DOTA，提交BUG适宜方位：坐西朝东多饮水、鲜奶，女神亲近指数较高进入正题本节内容如下：什么是IO文件内容操作操作文本文件操作二进制文 ... [详细]

蜡笔小新 2023-05-20 17:19:03
import
Requests库的基本使用方法

本文介绍了Python中Requests库的基础用法，包括如何安装、GET和POST请求的实现、如何处理Cookies和Headers，以及如何解析JSON响应。相比urllib库，Requests库提供了更为简洁高效的接口来处理HTTP请求。 ... [详细]

蜡笔小新 2024-11-21 13:17:41
python
深入体验Python的高级交互式Shell - IPython

IPython 是一个增强型的 Python 交互式 Shell，提供了比标准 Python 控制台更为强大的功能，适用于开发和调试过程。它不仅支持直接执行 Linux 命令，还提供了丰富的特性来提高编程效率。 ... [详细]

蜡笔小新 2024-11-20 19:06:56
request
protobuf 使用心得：解析与编码陷阱

本文记录了一次在广告系统中使用protobuf进行数据交换时遇到的问题及其解决过程。通过这次经历，我们将探讨protobuf的特性和编码机制，帮助开发者避免类似的陷阱。 ... [详细]

蜡笔小新 2024-11-20 14:35:41
python
VSCode 切换 Python 虚拟环境时遇到脚本执行权限问题

本文介绍了解决在 VSCode 中切换 Python 虚拟环境时出现的‘无法加载文件 E:Python_projectshop_envScriptsActivate.ps1，因为在此系统上禁止运行脚本’的问题的方法。 ... [详细]

蜡笔小新 2024-11-20 12:08:46
bit
编程语言概述与Python变量详解

本文介绍了编程语言的基本分类，包括机器语言、汇编语言和高级语言的特点及其优缺点。随后详细讲解了Python解释器的安装与配置方法，并探讨了Python变量的定义、使用及内存管理机制。 ... [详细]

蜡笔小新 2024-11-17 09:03:36
import
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
import
python2写入文件乱码怎么解决？[python常见问题]

python写入中文乱码的解决方法：1、写入的文件名乱码可以使用unicode()函数编码来解决。2、在写入文件时在创建文件语句后使用f.write(codecs.BOM_ ... [详细]

蜡笔小新 2023-05-29 13:52:39
import
python2 对excel表格操作完整示例

本文实例讲述了python2对excel表格操作。分享给大家供大家参考，具体如下：#!usrbinenvpython2#-*-coding:utf-8-*-CreatedonSatD ... [详细]

蜡笔小新 2023-05-19 09:09:33
range
python2和python3版本有哪些区别

这篇文章主要介绍了python2和python3版本有哪些区别，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小 ... [详细]

蜡笔小新 2023-05-18 23:37:59
import
Vue3中如何提高开发效率

小编给大家分享一下Vue3中如何提高开发效率，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获， ... [详细]

蜡笔小新 2024-11-20 15:33:07
match
解决PHP及Web开发中的UTF-8乱码问题

本文详细探讨了在Web开发中常见的UTF-8编码问题及其解决方案，包括HTML页面、PHP脚本、MySQL数据库以及JavaScript和Flash应用中的乱码问题。 ... [详细]

蜡笔小新 2024-11-20 10:58:03
string
Linux中tput命令怎么用

这篇文章主要介绍Linux中tput命令怎么用，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！Linux常用命令tput命令将通过ter ... [详细]

蜡笔小新 2024-11-16 12:00:46
import
分别用python2和python3伪装浏览器爬取网页内容[python高级教程]

python网页抓取功能非常强大，使用urllib或者urllib2可以很轻松的抓取网页内容。但是很多时候我们要注意，可能很多网站都设 ... [详细]

蜡笔小新 2023-05-18 06:44:07

跟我搞对象吧

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章