当前位置: 开发笔记 > 编程语言 > 正文

Python2与Python3关于字符串编码处理的差别总结

作者：明天爱你1314_138 | 来源：互联网 | 2022-10-29 14:18

这篇文章主要给大家介绍了Python2与Python3关于字符串编码处理差别的相关资料，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

0x00 字符的编码

计算机毕竟是西方国家的发明，最开始并没有想到会普及到全世界，只用一个字节中的7位（ASCII）来表示字符对于现在庞大的文字数量来说显然不够，所以先后经历了好几套编码方案，不同国家和地区又有自己的方案，造成了现在诸多的历史遗留问题。

0x01 Python中的字符串

Python有两种不同的字符串，一种存储文本，一种存储字节。对于文本，Python内部采用Unicode存储，而字节字符串显示原始字节序列或者ASCII。

什么叫编码（encode）？

按照字面意思和以往经验，我要把这个文本或字符串用“UTF-8”编码，感觉上应该是对字节数据进行编码然后显示正确的文字。大多数人都是这么想的，可事实呢？

编码的意思是将Unicode字符按照编码规则（如UTF-8）编成字节序列：

这里写图片描述

有人此时会问，我用 print 语句打印出来怎么是乱码或者是中文，并不是字节序列。这是因为你调用 print 语句的时候，默认进行了隐式解码，为的是让人类看见友好的字符数据 ，也就是默认的进行了str()包装，想看见背后真正的十六进制数，你需要调用魔术方法 _repr_() 。

什么叫解码（decode）&＃63;

对应的，解码就是将字节序列按照编码规则（如UTF-8）解释成unicode形式。

这里写图片描述

这里或许又会有疑问，编码解码都是十六进制，那中文字符咋显示的？
这又要结合你的环境了。看完我上面推荐的文章，你就会明白，Unicode只是一种标准，而具体的编码才是实现方式。有了正确的Unicode编码，仅仅代表你有了正确的英文文献，想翻译成中文，还得再转换一次。而这一次转换，是你的环境帮你完成。举个例子，你打开一个文档，发现是乱码，多半是文本编辑器的解码方式有问题，换个解码规则就好了。

0x02 Python2 和 Python3 之间的区别

Python3 一切都很美好

在Python3当中，文本字符串类型（使用Unicode数据存储）被命名为 str , 字节字符串类型被命名为 bytes 。一般情况下，实例化一个字符串会得到一个 str 对象：

这里写图片描述

所以现在很多人都说，Python3默认是Unicode，也就是这个意思。

如果你想得到bytes，那就在文本之前加上前缀 b , 或者 encode 一下。

这里写图片描述

所以，很显然，str 对象有一个encode方法，bytes 对象有一个decode方法。

Python2 相当的操蛋，甚至会误导你

在Python3中的 str 对象在Python2中叫做 unicode ，感觉很通俗对吧？但 bytes 对象在Python2中叫做 str ，对。。就是你平时用的 str ，默认的那个。。。

如果你想得到一个文本字符串，你需要在字符串之前加上前缀 u 或者 decode 一下。

搞笑的还不止这么点，Python2中的 str （字节）对象，竟然有一个 encode 方法！！！而且你别指望它有什么特殊用处，它就是用来报错的，永远都别使用它！！！

同样的，unicode （文本字符）对象也有一个用来报错的 decode 方法。

我们尝试一下：

这里写图片描述

不知道大家注意到错误信息没有，我们在进行解码，规则是GBK，但它说 无法用 ascii 进行编码 ，这是为什么？

这就是Python2自作聪明为了对一个unicode对象执行解码而进行的隐式编码 ，等于以下代码：

b.encode('ascii').decode('GBK')

这就是为什么很多人说，Python2的编码很操蛋。

0x03 小结

如果你在用2.X，请养成在字符串加上 u 前缀的习惯，统一编码UTF-8，如果windows控制台或者Pycharm控制台依旧出现乱码，那多半是控制台编码不同，改过来就好。

参考书籍《Python 高级编程》

总结

到此这篇关于Python2与Python3关于字符串编码处理的差别总结的文章就介绍到这了,更多相关Python2与Python3字符串编码处理差别内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持！

推荐阅读

char
深入理解ASCII、ANSI、GB2312、UNICODE及UTF-8、UTF-16编码

本文回顾了作者初次接触Unicode编码时的经历，并详细探讨了ASCII、ANSI、GB2312、UNICODE以及UTF-8和UTF-16编码的区别和应用场景。通过实例分析，帮助读者更好地理解和使用这些编码。 ... [详细]

蜡笔小新 2024-11-13 07:33:27
char
七款高效编辑器与笔记工具推荐：KindEditor自动换行功能解析

本文推荐了七款高效的编辑器与笔记工具，并详细解析了KindEditor的自动换行功能。其中，轻笔记QingBiJi是一款完全免费的记事本软件，用户可以通过其简洁的界面和强大的功能轻松记录和管理日常事务。此外，该软件还支持多平台同步，确保用户在不同设备间无缝切换。 ... [详细]

蜡笔小新 2024-11-06 11:14:53
char
如何在Vista中通过组策略禁用添加或删除程序功能

本文详细介绍了如何在Windows Vista操作系统中通过组策略禁用“添加或删除程序”功能，以防止未经授权的用户安装或卸载应用程序。文章内容清晰易懂，适合IT管理员和技术人员阅读。 ... [详细]

蜡笔小新 2024-11-18 17:26:11
char
首部|接口类型_OSI 7层模型 & TCP/IP协议首部封装格式解析

首部|接口类型_OSI 7层模型 & TCP/IP协议首部封装格式解析 ... [详细]

蜡笔小新 2024-11-17 18:56:46
copy
编程语言概述与Python变量详解

本文介绍了编程语言的基本分类，包括机器语言、汇编语言和高级语言的特点及其优缺点。随后详细讲解了Python解释器的安装与配置方法，并探讨了Python变量的定义、使用及内存管理机制。 ... [详细]

蜡笔小新 2024-11-17 09:03:36
copy
解决Win7安装SQL Server时NetFx3启动失败的问题

在使用Win7系统安装SQL Server时，部分用户可能会遇到“启动Windows功能NetFx3时出错”的提示。本文将详细介绍这一问题的原因及解决方法。 ... [详细]

蜡笔小新 2024-11-15 14:37:26
dll
C#中使用Dotfuscator Pro进行代码混淆

由于Visual Studio自带的混淆工具功能有限，本文将介绍如何使用Dotfuscator Pro进行更高级的代码混淆。包括设置字符串加密、添加可执行文件和动态链接库、调整混淆选项等步骤。 ... [详细]

蜡笔小新 2024-11-15 14:24:30
object
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
const
开发日志：高效图片压缩与上传技术解析

开发日志：高效图片压缩与上传技术解析 ... [详细]

蜡笔小新 2024-11-11 19:33:51
const
体积小巧的vsftpd与pureftpd Docker镜像在Unraid系统中的详细配置指南：支持TLS加密及IPv6协议

本文详细介绍了如何在Unraid系统中配置体积小巧的vsftpd和Pure-FTPd Docker镜像，以支持TLS加密和IPv6协议。通过这些配置，用户可以实现安全、高效的文件传输服务，适用于各种网络环境。配置过程包括镜像的选择、环境变量的设置以及必要的安全措施，确保了系统的稳定性和数据的安全性。 ... [详细]

蜡笔小新 2024-11-09 12:46:23
char
Python默认字符解析：深入理解Python中的字符串处理

在Python中，字符串是编程中最基本且常用的数据类型之一。尽管许多初学者是从C语言开始接触字符串，通常通过经典的“Hello, World!”程序入门，但Python对字符串的处理方式更为灵活和强大。本文将深入探讨Python中的字符串处理机制，包括字符串的创建、操作、格式化以及编码解码等方面，帮助读者全面理解Python字符串的特性和应用。 ... [详细]

蜡笔小新 2024-11-08 05:02:14
char
Shell参数详解与应用

本文详细介绍了Shell参数的种类及其应用，内容简洁明了，结构清晰。通过深入解析各类参数的功能和使用方法，旨在帮助读者更好地理解和掌握Shell编程技巧，提升实际操作能力。 ... [详细]

蜡笔小新 2024-11-03 15:58:46
char
Java中Unicode编码的二进制转换详解与实现

本文详细探讨了Java中Unicode编码的二进制转换方法及其具体实现。通过分析\u开头的字符串，解释了每组\uxxxx如何对应一个特定的Unicode字符，并提供了相关代码示例以加深理解。希望读者在实际开发中能有效应用这些知识。 ... [详细]

蜡笔小新 2024-11-02 16:17:56
char
MacOS双系统安装指南：十分钟速成，轻松省下数百元！

MacOS双系统安装指南：十分钟速成，轻松省下数百元！ ... [详细]

蜡笔小新 2024-10-26 15:04:02
import
python2.7入门模块(Module)

来，这次我们就看下Python模块(Module)。它是一个Python文件，以.py结尾，包含了Python对象定义和Python语句。模块让你能够有逻辑地组织你的Pyt ... [详细]

蜡笔小新 2023-08-01 07:13:58

明天爱你1314_138

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章