使用python 2,在每个字符串或Unicode对象上调用 .lower() 。string1.lower() == string2.lower()
大多数时候都可以工作,但是,实际上在 @tchrist描述的情况下并不工作。
假设我们有一个名为unicode.txt的文件,其中包含两个字符串Σίσυφος和ΣΊΣΥΦΟΣ ,使用python 2:>>> utf8_bytes = open(" unicode.txt" , 'r').read()
>>> print repr(utf8_bytes)
'xcexa3xcexafxcfx83xcfx85xcfx86xcexbfxcfx82nxcexa3xcex8axcexa3xcexa5xcexa6xcex9fxcexa3n'
>>> u = utf8_bytes.decode('utf8')
>>> print u
Σίσυφος
ΣΊΣΥΦΟΣ
>>> first, second = u.splitlines()
>>> print first.lower()
σίσυφος
>>> print second.lower()
σίσυφοσ
>>> first.lower() == second.lower()
False
>>> first.upper() == second.upper()
True
Σ字符有两个小写形式,σ和 .lower()将不会帮助比较它们区分大小写。
但是,在python 3中,所有三个form都被解析,并且两个字符串上的lower()调用将正常工作:>>> s = open('unicode.txt', encoding='utf8').read()
>>> print(s)
Σίσυφος
ΣΊΣΥΦΟΣ
>>> first, second = s.splitlines()
>>> print(first.lower())
σίσυφος
>>> print(second.lower())
σίσυφος
>>> first.lower() == second.lower()
True
>>> first.upper() == second.upper()
True
如果你关心像希腊文这样的三个sigmas的特殊情况,那么使用python 3.
(作为参考,python 2.7.3和python 3.3.0 b1显示在上面的解释器输出中)。