了解Python编码和Unicode

作者：边怀珠大海 | 来源：互联网 | 2017-05-14 02:44

我确定有很多关于Unicode和Python的说明，但为了方便自己的理解使用，我还是打算再写一些关于它们的东西。字节流vsUnicode对象我们先来用Python定义一个字符串。当你使用string类型时，实际上会储存一个字节串。[a][b][c]"abc"[97][98][99]"abc"在这个例子里，abc这个字符串是一个字节串。97.，98,，99是ASCII码。在Pytho

　　我确定有很多关于Unicode和Python的说明，但为了方便自己的理解使用，我还是打算再写一些关于它们的东西。

　　字节流 vs Unicode对象

　　我们先来用Python定义一个字符串。当你使用string类型时，实际上会储存一个字节串。

[  a ][  b ][  c ] = "abc"
[ 97 ][ 98 ][ 99 ] = "abc"

　　在这个例子里，abc这个字符串是一个字节串。97.，98,，99是ASCII码。在Python 2.x里定义就是将所有的字符串当做ASCII来对待。不幸的是，ASCII在拉丁式字符集里是最不常见的标准。

　　ASCII是用前127个数字来做字符映射。像windows-1252和UTF-8这样的字符映射有相同的前127个字符。在你的字符串里每个字节的值低于127的时候是安全的混合字符串编码。然而作这个假设是件很危险的事情，下面还将会提到。

　　当你的字符串里有字节的值大于126的时候就会有问题冒出来。我们来看一个用windows-1252编码的字符串。Windows-1252里的字符映射是8位的字符映射，那么总共就会有256个字符。前127个跟ASCII是一样的，接下来的127个是由windows-1252定义的其他字符。

A windows-1252 encoded string looks like this:
[ 97 ] [ 98 ] [ 99 ] [ 150 ] = "abc–"

　　Windows-1252仍然是一个字节串，但你有没有看到最后一个字节的值是大于126的。如果Python试着用默认的ASCII标准来解码这个字节流，它就会报错。我们来看当Python解码这个字符串的时候会发生什么：

>>> x = "abc" + chr(150)
>>> print repr(x)
&＃39;abc\x96&＃39;
>>> u"Hello" + x
Traceback (most recent call last):
  File "", line 1, in ?
UnicodeDecodeError: &＃39;ASCII&＃39; codec can&＃39;t decode byte 0x96 in position 3: ordinal not in range(128)

　　我们来用UTF-8来编码另一个字符串：

A UTF-8 encoded string looks like this:
[ 97 ] [ 98 ] [ 99 ] [ 226 ] [ 128 ] [ 147 ] = "abc–"
[0x61] [0x62] [0x63] [0xe2]  [ 0x80] [ 0x93] = "abc-"

　　如果你拿起看你熟悉的Unicode编码表，你会发现英文的破折号对应的Unicode编码点为8211（0×2013）。这个值大于ASCII最大值127。大于一个字节能够存储的值。因为8211（0×2013）是两个字节，UTF-8必须利用一些技巧告诉系统存储一个字符需要三个字节。我们再来看当Python准备用默认的ASCII来编码一个里面有字符的值大于126的UTF-8编码字符串。

>>> x = "abc\xe2\x80\x93"
>>> print repr(x)
&＃39;abc\xe2\x80\x93&＃39;
>>> u"Hello" + x
Traceback (most recent call last):
  File "", line 1, in ?
UnicodeDecodeError: &＃39;ASCII&＃39; codec can&＃39;t decode byte 0xe2 in position 3: ordinal not in range(128)

　　你可以看到，Python一直是默认使用ASCII编码。当它处理第4个字符的时候，因为它的值为226大于126，所以Python抛出了错误。这就是混合编码所带来的问题。

　　解码字节流

　　在一开始学习Python Unicode 的时候，解码这个术语可能会让人很疑惑。你可以把字节流解码成一个Unicode对象，把一个Unicode 对象编码为字节流。

　　Python需要知道如何将字节流解码为Unicode对象。当你拿到一个字节流，你调用它的“解码方法来从它创建出一个Unicode对象。

　　你最好是尽早的将字节流解码为Unicode。

>>> x = "abc\xe2\x80\x93"
>>> x = x.decode("utf-8")
>>> print type(x)

>>> y = "abc" + chr(150)
>>> y = y.decode("windows-1252")
>>> print type(y)
>>> print x + y
abc–abc–

　　将Unicode编码为字节流

　　Unicode对象是一个文本的编码不可知论的代表。你不能简单地输出一个Unicode对象。它必须在输出前被变成一个字节串。Python会很适合做这样的工作，尽管Python将Unicode编码为字节流时默认是适用ASCII，这个默认的行为会成为很多让人头疼的问题的原因。

>>> u = u"abc\u2013"
>>> print u
Traceback (most recent call last):
  File "", line 1, in 
UnicodeEncodeError: &＃39;ascii&＃39; codec can&＃39;t encode character u&＃39;\u2013&＃39; in position 3: ordinal not in range(128)
>>> print u.encode("utf-8")
abc–

　　使用codecs模块

　　codecs模块能在处理字节流的时候提供很大帮助。你可以用定义的编码来打开文件并且你从文件里读取的内容会被自动转化为Unicode对象。

　　试试这个：

>>> import codecs
>>> fh = codecs.open("/tmp/utf-8.txt", "w", "utf-8")
>>> fh.write(u"\u2013")
>>> fh.close()

　　它所做的就是拿到一个Unicode对象然后将它以utf-8编码写入到文件。你也可以在其他的情况下这么使用它。

　　试试这个：

　　当从一个文件读取数据的时候，codecs.open 会创建一个文件对象能够自动将utf-8编码文件转化为一个Unicode对象。

　　我们接着上面的例子，这次使用urllib流。

>>> stream = urllib.urlopen("http://www.google.com")
>>> Reader = codecs.getreader("utf-8")
>>> fh = Reader(stream)
>>> type(fh.read(1))

>>> Reader

　　单行版本：

>>> fh = codecs.getreader("utf-8")(urllib.urlopen("http://www.google.com"))
>>> type(fh.read(1))

　　你必须对codecs模块十分小心。你传进去的东西必须是一个Unicode对象，否则它会自动将字节流作为ASCII进行解码。

>>> x = "abc\xe2\x80\x93" # our "abc-" utf-8 string
>>> fh = codecs.open("/tmp/foo.txt", "w", "utf-8")
>>> fh.write(x)
Traceback (most recent call last):
File "", line 1, in 
File "/usr/lib/python2.5/codecs.py", line 638, in write
  return self.writer.write(data)
File "/usr/lib/python2.5/codecs.py", line 303, in write
  data, cOnsumed= self.encode(object, self.errors)
UnicodeDecodeError: &＃39;ascii&＃39; codec can&＃39;t decode byte 0xe2 in position 3: ordinal not in range(128)

　　哎呦我去，Python又开始用ASCII来解码一切了。

　　将UTF-8字节流切片的问题

　　因为一个UTF-8编码串是一个字节列表，len( )和切片操作无法正常工作。首先用我们之前用的字符串。

[ 97 ] [ 98 ] [ 99 ] [ 226 ] [ 128 ] [ 147 ] = "abc–"

　　接下来做以下的：

>>> my_utf8 = "abc–"
>>> print len(my_utf8)
6

　　神马？它看起来是4个字符，但是len的结果说是6。因为len计算的是字节数而不是字符数。

>>> print repr(my_utf8)
&＃39;abc\xe2\x80\x93&＃39;

　　现在我们来切分这个字符串。

>>> my_utf8[-1] # Get the last char
&＃39;\x93&＃39;

　　我去，切分结果是最后一字节，不是最后一个字符。

　　为了正确的切分UTF-8，你最好是解码字节流创建一个Unicode对象。然后就能安全的操作和计数了。

>>> my_unicode = my_utf8.decode("utf-8")
>>> print repr(my_unicode)
u&＃39;abc\u2013&＃39;
>>> print len(my_unicode)
4
>>> print my_unicode[-1]
–

　　当Python自动地编码/解码

　　在一些情况下，当Python自动地使用ASCII进行编码/解码的时候会抛出错误。

　　第一个案例是当它试着将Unicode和字节串合并在一起的时候。

>>> u"" + u"\u2019".encode("utf-8")
Traceback (most recent call last):
  File "", line 1, in 
UnicodeDecodeError: &＃39;ascii&＃39; codec can&＃39;t decode byte 0xe2 in position 0:   ordinal not in range(128)

　　在合并列表的时候会发生同样的情况。Python在列表里有string和Unicode对象的时候会自动地将字节串解码为Unicode。

>>> ",".join([u"This string\u2019s unicode", u"This string\u2019s utf-8".encode("utf-8")])
Traceback (most recent call last):
  File "", line 1, in 
UnicodeDecodeError: &＃39;ascii&＃39; codec can&＃39;t decode byte 0xe2 in position 11:  ordinal not in range(128)

　　或者当试着格式化一个字节串的时候：

>>> "%s\n%s" % (u"This string\u2019s unicode", u"This string\u2019s  utf-8".encode("utf-8"),)
Traceback (most recent call last):
  File "", line 1, in 
UnicodeDecodeError: &＃39;ascii&＃39; codec can&＃39;t decode byte 0xe2 in position 11: ordinal not in range(128)

　　基本上当你把Unicode和字节串混在一起用的时候，就会导致出错。

　　在这个例子里面，你创建一个utf-8文件，然后往里面添加一些Unicode对象的文本。就会报UnicodeDecodeError错误。

>>> buffer = []
>>> fh = open("utf-8-sample.txt")
>>> buffer.append(fh.read())
>>> fh.close()
>>> buffer.append(u"This string\u2019s unicode")
>>> print repr(buffer)
[&＃39;This file\xe2\x80\x99s got utf-8 in it\n&＃39;, u&＃39;This string\u2019s unicode&＃39;]
>>> print "\n".join(buffer)
Traceback (most recent call last):
  File "", line 1, in 
UnicodeDecodeError: &＃39;ascii&＃39; codec can&＃39;t decode byte 0xe2 in position 9: ordinal not in range(128)

　　你可以使用codecs模块把文件作为Unicode加载来解决这个问题。

>>> import codecs
>>> buffer = []
>>> fh = open("utf-8-sample.txt", "r", "utf-8")
>>> buffer.append(fh.read())
>>> fh.close()
>>> print repr(buffer)
[u&＃39;This file\u2019s got utf-8 in it\n&＃39;, u&＃39;This string\u2019s unicode&＃39;]
>>> buffer.append(u"This string\u2019s unicode")
>>> print "\n".join(buffer)
This file’s got utf-8 in it

This string’s unicode

　　正如你看到的，由codecs.open 创建的流在当数据被读取的时候自动地将比特串转化为Unicode。

　　最佳实践

　　1．最先解码，最后编码

　　2．默认使用utf-8编码

　　3．使用codecs和Unicode对象来简化处理

　　最先解码意味着无论何时有字节流输入，需要尽早将输入解码为Unicode。这会防止出现len( )和切分utf-8字节流发生问题。

　　最后编码意味着只有在准备输入的时候才进行编码。这个输出可能是一个文件，一个数据库，一个socket等等。只有在处理完成之后才编码unicode对象。最后编码也意味着，不要让Python为你编码Unicode对象。Python将会使用ASCII编码，你的程序会崩溃。

　　默认使用UTF-8编码意味着：因为UTF-8可以处理任何Unicode字符，所以你最好用它来替代windows-1252和ASCII。

　　codecs模块能够让我们在处理诸如文件或socket这样的流的时候能少踩一些坑。如果没有codecs提供的这个工具，你就必须将文件内容读取为字节流，然后将这个字节流解码为Unicode对象。

　　codecs模块能够让你快速的将字节流转化为Unicode对象，省去很多麻烦。

　　解释UTF-8

　　最后的部分是让你能入门UTF-8，如果你是个超级极客可以无视这一段。

　　利用UTF-8，任何在127和255之间的字节是特别的。这些字节告诉系统这些字节是多字节序列的一部分。

Our UTF-8 encoded string looks like this:
[ 97 ] [ 98 ] [ 99 ] [ 226 ] [ 128 ] [ 147 ] = "abc–"

　　最后3字节是一个UTF-8多字节序列。如果你把这三个字节里的第一个转化为2进制可以看到以下的结果：

11100010

　　前3比特告诉系统它开始了一个3字节序列226，128，147。

　　那么完整的字节序列。

11100010 10000000 10010011

　　然后你运用三字节序列的下面的掩码。

1110xxxx 10xxxxxx 10xxxxxx
XXXX0010 XX000000 XX010011 Remove the X&＃39;s
0010       000000   010011 Collapse the numbers
00100000 00010011          Get Unicode number 0x2013, 8211 The "–"

　　这是基本的UTF-8入门，如果想知道更多的细节，可以去看UTF-8的维基页面。

　　原文链接： ERIC MORITZ 翻译：伯乐在线 - 贱圣OMG

以上就是了解Python编码和Unicode的详细内容，更多请关注第一PHP社区其它相关文章！

推荐阅读

hash
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
hash
Valve 发布 Steam Deck 的新版 Windows 驱动程序

Valve 最新发布了针对 Steam Deck 掌机的 Windows 驱动程序，旨在提升其在 Windows 环境下的兼容性、安全性和性能表现。 ... [详细]

蜡笔小新 2024-12-28 10:31:16
php
四载相伴，与51CTO学院共成长

在计算机技术的学习道路上，51CTO学院以其专业性和专注度给我留下了深刻印象。从2012年接触计算机到2014年开始系统学习网络技术和安全领域，51CTO学院始终是我信赖的学习平台。 ... [详细]

蜡笔小新 2024-12-28 08:20:07
main
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
main
网络链路质量监控：Smokeping部署与配置

本文详细介绍了如何在Linux系统上安装和配置Smokeping，以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装，确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]

蜡笔小新 2024-12-27 19:31:05
php
如何在PHPcms网站中添加广告

本文详细介绍了在PHPcms网站后台添加广告的方法，涵盖多种常见的广告形式，如百度广告和Google广告，并提供了相关设置的步骤。同时，文章还探讨了优化网站流量的SEO策略。 ... [详细]

蜡笔小新 2024-12-27 17:13:07
python
PyCharm下载与安装指南

本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境（IDE），涵盖Windows、macOS和Linux系统，同时提供详细的安装步骤及配置建议。 ... [详细]

蜡笔小新 2024-12-28 09:42:41
php
CSS 布局：液态三栏混合宽度布局

本文介绍了如何使用 CSS 实现液态的三栏布局，其中各栏具有不同的宽度设置。通过调整容器和内容区域的属性，可以实现灵活且响应式的网页设计。 ... [详细]

蜡笔小新 2024-12-28 02:40:28
default
Linux 系统启动故障排除指南：MBR 和 GRUB 问题

本文详细介绍了 Linux 系统启动过程中常见的 MBR 扇区和 GRUB 引导程序故障及其解决方案，涵盖从备份、模拟故障到恢复的具体步骤。 ... [详细]

蜡笔小新 2024-12-27 20:40:29
php
通过类型和标签选择元素

本文介绍了如何使用jQuery根据元素的类型（如复选框）和标签名（如段落）来获取DOM对象。这有助于更高效地操作网页中的特定元素。 ... [详细]

蜡笔小新 2024-12-27 19:44:14
php
深入理解Cookie与Session会话管理

本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息，以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制，解释其原理及应用场景。 ... [详细]

蜡笔小新 2024-12-27 18:20:43
php
Xcode 中多行代码缩进技巧

本文介绍如何在 Xcode 中使用快捷键和菜单命令对多行代码进行缩进，包括右缩进和左缩进的具体操作方法。 ... [详细]

蜡笔小新 2024-12-27 17:52:34
match
c# – UWP：BrightnessOverride StartOverride逻辑

c# – UWP：BrightnessOverride StartOverride逻辑 ... [详细]

蜡笔小新 2024-12-27 16:56:40
match
优化版Windows 10 LTSC 21H2企业版：适用于低内存设备

此版本为经过优化的Windows 10 LTSC 21H2企业版，特别适合低内存配置的计算机。它基于官方版本进行了精简和性能优化，确保在资源有限的情况下依然能够稳定运行。 ... [详细]

蜡笔小新 2024-12-27 16:47:43
php
解决Linux系统中pygraphviz安装问题

本文探讨了在Linux环境下安装pygraphviz时遇到的常见问题，并提供了详细的解决方案和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 16:44:26

边怀珠大海

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章