python的str，unicode对象的encode和decode方法（转）python的str，unicode对象的encode和decode方法（转）

作者：靜trevis_263 | 来源：互联网 | 2023-10-12 10:20

python的str，unicode对象的encode和decode方法（转）python的str，unicode对象的encode和decode方法python中的str对象其实

python的str，unicode对象的encode和decode方法（转）

python的str，unicode对象的encode和decode方法
python中的str对象其实就是"8-bit string" ，字节字符串，本质上类似java中的byte[]。
而python中的unicode对象应该才是等同于java中的String对象，或本质上是java的char[]。
对于

Python代码

python的str，unicode对象的encode和decode方法（转）

python的str，unicode对象的encode和decode方法（转）

s="你好"
u=u"你好"

s="你好" 
u=u"你好"

1. s.decode方法和u.encode方法是最常用的，
简单说来就是，python内部表示字符串用unicode（其实python内部的表示和真实的unicode是有点差别的，对我们几乎透明，可不考虑），和人交互的时候用str对象。
s.decode -------->将s解码成unicode，参数指定的是s本来的编码方式。这个和unicode(s,encodename)是一样的。
u.encode -------->将unicode编码成str对象，参数指定使用的编码方式。
助记：decode to unicode from parameter
encode to parameter from unicode
只有decode方法和unicode构造函数可以得到unicode对象。
上述最常见的用途是比如这样的场景，我们在python源文件中指定使用编码cp936，
# coding=cp936或#-*- coding:cp936 -*-或#coding:cp936的方式（不写默认是ascii编码）
这样在源文件中的str对象就是cp936编码的，我们要把这个字符串传给一个需要保存成其他编码的地方（比如xml的utf-8,excel需要的utf-16）
通常这么写：
strobj.decode("cp936").encode("utf-16")

You typically encode a unicode string whenever you need to use it for IO, for instance transfer it over the network, or save it to a disk file.
To convert a string of bytes to a unicode string is known as decoding. Use unicode('...', encoding) or '...'.decode(encoding).
You typically decode a string of bytes whenever you receive string data from the network or from a disk file.
2.
第一条已经写了不少，因为是最常用到的，基本不用怎么解释。我重点想说的是这第二条。
似乎有了unicode对象的encode方法和str的decode方法就足够了。奇怪的是，unicode也有decode，而str也有
encode，到底这两个是干什么的。
用处1
str本身已经是编码过的了，如果再encode很难想到有什么用（通常会出错的）
先解释下这个
str.encode(e) is the same as unicode(str).encode(e).
This is useful since code that expects Unicode strings should also work when it is passed
ASCII-encoded 8-bit strings(from Guido van Rossum)
python之父的这段话大概意思是说encode方法本来是被unicode调的，但如果不小心被作为str对象的方法调，并且这个str对象正好
是ascii编码的（ascii这一段和unicode是一样的），也应该让他成功。这就是str.encode方法的一个用处（我觉得这个基本等于没用）
类似地，把光用ascii组成的unicode再decode一回是一样的道理，因为好像几乎任何编码里ascii都原样没变。因此这样的操作等于没做。
u"abc".decode("gb2312")和u"abc"是相等的。

用处2
非字符的编码集non-character-encoding-codecs，这些只在python中定义，离开python就没意义（这个来自python的官方文档）
并且也不是人类用的语言，呵呵。
比如

Python代码

'\n'.encode('hex')=='0a'
u'\n'.encode('hex')=='0a'
'0a'.decode('hex')=='\n'
u'0a'.decode('hex')=='\n'

'\n'.encode('hex')=='0a' 
u'\n'.encode('hex')=='0a'
'0a'.decode('hex')=='\n'
u'0a'.decode('hex')=='\n'

可见名为hex的编码可以讲字符表示（当然了，必须是ascii内的）和十六进制表示之间转换
另外还有很多好玩的，比如：base64通俗的讲是号称防君子不防小人的给邮件的编码，gzip大概是指压缩吧（这是我猜的），rot13回转13等，不知者google之
关于这些，官方有个详细的表格，在http://docs.python.org/library/codecs.html中的Standard Encodings一节中，前一个表格是基于字符的编码，第二个表格
就是这里的非字符的编码。关于这些特殊编码，官方一句说明：
For the codecs listed below, the result in the “encoding” direction is always a byte string.
The result of the “decoding” direction is listed as operand type in the table.
encode的结果一定是一个byte的str，而decode的结果在表中operand一列。

参考
Converting Between Unicode and Plain Strings 在Unicode和普通字符串之间转换
http://wiki.woodpecker.org.cn/moin/PyCkBk-3-18
what’s the difference between encode/decode? (python 2.x)
http://***.com/questions/447107/whats-the-difference-between-encode-decode-python-2-x
http://docs.python.org/library/codecs.html

编码声明的作用
请参考http://www.python.org/dev/peps/pep-0263/
声明源文件中将出现非ascii编码；
在高级的IDE中，IDE会将你的文件格式保存成你指定编码格式。
决定源码中类似于u'哈'这类声明的将'哈'解码成unicode所用的编码格式，也是一个比较容易让人迷惑的地方。
（java不需要声明的原因在于：java中默认是本地编码而py中默认是ascii，搞得python更易出错，
并且，java编译的时候还有个指定编码的参数encoding）

文件的编码格式决定了在该源文件中声明的字符串的编码格式，例如：

Python代码

str = '哈哈'
print repr(str)

str = '哈哈' 
print repr(str)

a.如果文件格式为utf-8，则str的值为：'\xe5\x93\x88\xe5\x93\x88'（哈哈的utf-8编码）
b.如果文件格式为gbk，则str的值为：'\xb9\xfe\xb9\xfe'（哈哈的gbk编码）

我的理解：文件编码格式保存后没有地方指明，只有靠聪明或笨的编辑器，编译器去猜。而声名就更精确一些。
让两者一致了总不会错。

其实好多其他语言或应用中也是类似的decode和encode概念，比如在java中String的涉及的编码转换及jdk中的工具native2ascii，
好像Javascript也有这个，记不清楚了。

Python代码

s="你好"
u=u"你好"

s="你好" 
u=u"你好"

Python代码

'\n'.encode('hex')=='0a'
u'\n'.encode('hex')=='0a'
'0a'.decode('hex')=='\n'
u'0a'.decode('hex')=='\n'

'\n'.encode('hex')=='0a' 
u'\n'.encode('hex')=='0a'
'0a'.decode('hex')=='\n'
u'0a'.decode('hex')=='\n'

Python代码

str = '哈哈'
print repr(str)

str = '哈哈' 
print repr(str)

推荐阅读

java
ssm 框架整合及工程分层

ssm框架整合及工程分层1.先创建一个新的project1.1配置pom.xml ... [详细]

蜡笔小新 2024-12-21 12:56:58
java
解决C# Windows Forms客户端连接SignalR服务器时出现的错误

在尝试使用C# Windows Forms客户端通过SignalR连接到ASP.NET服务器时，遇到了内部服务器错误（500）。本文将详细探讨问题的原因及解决方案。 ... [详细]

蜡笔小新 2024-12-21 16:55:52
input
springMVC JRS303验证

springMVC JRS303验证 ... [详细]

蜡笔小新 2024-12-20 09:07:39
java
简化报表生成：EasyReport工具的全面解析

本文详细介绍了EasyReport，一个易于使用的开源Web报表工具。该工具支持Hadoop、HBase及多种关系型数据库，能够将SQL查询结果转换为HTML表格，并提供Excel导出、图表显示和表头冻结等功能。 ... [详细]

蜡笔小新 2024-12-22 11:11:28
java
深入解析Java虚拟机（JVM）架构与原理

本文旨在为读者提供对Java虚拟机（JVM）的全面理解，涵盖其主要组成部分、工作原理及其在不同平台上的实现。通过详细探讨JVM的结构和内部机制，帮助开发者更好地掌握Java编程的核心技术。 ... [详细]

蜡笔小新 2024-12-21 23:50:40
yaml
Python + Pytest 接口自动化测试中 Token 关联登录的实现方法

本文将深入探讨 Python 和 Pytest 在接口自动化测试中如何实现 Token 关联登录，内容详尽、逻辑清晰，旨在帮助读者掌握这一关键技能。 ... [详细]

蜡笔小新 2024-12-21 14:48:49
java
Spring Boot 中静态资源映射详解

本文深入探讨了 Spring Boot 如何简化 Web 应用中的静态资源管理，包括默认的静态资源映射规则、WebJars 的使用以及静态首页的处理方法。通过本文，您将了解如何高效地管理和引用静态资源。 ... [详细]

蜡笔小新 2024-12-20 20:02:31
case
HTML5与JavaScript实现本地文件读取、写入及路径获取

本文探讨了如何利用HTML5和JavaScript在浏览器中进行本地文件的读取和写入操作，并介绍了获取本地文件路径的方法。HTML5提供了一系列API，使得这些操作变得更加简便和安全。 ... [详细]

蜡笔小新 2024-12-20 18:36:06
java
搭建Jenkins、Ant与TestNG集成环境

本文详细介绍了如何在Ubuntu 16.04系统上配置Jenkins、Ant和TestNG的集成开发环境，涵盖从安装到配置的具体步骤，并提供了创建Windows Slave节点及项目构建的指南。 ... [详细]

蜡笔小新 2024-12-20 16:50:58
java
docker镜像重启_docker怎么启动镜像

docker镜像重启_docker怎么启动镜像dock ... [详细]

蜡笔小新 2024-12-20 16:34:52
request
Python3 中使用 lxml 模块解析 XPath 数据详解

XPath 是一种用于在 XML 文档中查找信息的路径语言，同样适用于 HTML 文件的搜索。本文将详细介绍如何利用 Python 的 lxml 模块通过 XPath 技术高效地解析和抓取网页数据。 ... [详细]

蜡笔小新 2024-12-20 11:23:22
request
性能分析：深入探讨进程中的线程行为

本文详细探讨了如何通过分析单个或多个线程在瓶颈情况下的表现，来了解处理器资源的消耗。无论是单进程还是多进程环境，监控关键指标如线程数量、占用时间及调度优先级等，有助于揭示潜在的性能问题。 ... [详细]

蜡笔小新 2024-12-21 20:47:03
utf-8
JSON 解析失败问题排查

在PHP后端开发中遇到一个难题：通过第三方类文件发送短信功能返回的JSON字符串无法解析。本文将探讨可能的原因并提供解决方案。 ... [详细]

蜡笔小新 2024-12-21 18:39:23
java
ListView简单使用

先上效果：主要实现了Listview的绑定和点击事件。项目资源结构如下：先创建一个动物类，用来装载数据：Animal类如下：packagecom.example.simplelis ... [详细]

蜡笔小新 2024-12-20 18:17:25
java
Java异步编程实践

本文详细介绍了Java中实现异步调用的多种方式，包括线程创建、Future接口、CompletableFuture类以及Spring框架的@Async注解。通过代码示例和深入解析，帮助读者理解并掌握这些技术。 ... [详细]

蜡笔小新 2024-12-20 18:02:19

靜trevis_263

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章