包含utf8字符的pickle转json的大坑处理过程

背景&＃xff1a;希望将pickle转换为json&＃xff0c;由于pickle里有utf8的字符&＃xff0c;因此转换失败。

修正后的代码&＃xff1a;因为pickle自身是latin编码&＃xff0c;需要转换为utf8再给json编码。

python2的json是无法处理&＃xff0c;包含utf8和unicode两种编码的&＃xff01;比如仅仅包含unicode的可以处理很好&＃xff1a;

o &＃61; { &＃39;text&＃39;: u&＃39;木村&＃39;, &＃39;text2&＃39;: &＃39;再加一个utf8的python json就熄火了&＃xff0c;会有编码错误异常。。。&＃39; }

python2 json的大坑

介绍一下背景

最近项目中有一个接口&＃xff0c;是通过redis队列做的。我将对方需要的数据通过json 字符串的形式&＃xff0c;push到redis list队列中&＃xff0c;对方监听并消费(题外话, 我对这种形式的交互有点看法吧&＃xff0c;双方既然是接口&＃xff0c;但是很难保证格式的统一&＃xff0c;比使用rpc框架强验证风险大的多)。

由于对端也是用python做的消费者&＃xff0c;所以也是相安无事。随着一个需求的变更&＃xff0c;我在自己调试pop的数据发现&＃xff0c;我写的json字符串是&＃xff0c;酱事儿的:

1	{"title": "\\u6211\\u7231\\u5317\\u4eac\\u5929\\u5b89\\u95e8"}

当时我就懵逼了&＃xff0c;这是什么鬼…
很显然这个是unicode字符串嘛&＃xff0c;但是我明明就编码成了UTF8啦&＃xff0c;怎么最后是这个鬼样子&＃xff0c;更奇怪的是对方能正确解码吗&＃xff1f;这明明是四不像啊。

我试着自己重现了整个过程。
首先&＃xff0c;我将utf8形式的字符串 我爱北京天安门 dumps成json:

1 2	In [10]: json.dumps({"title":"我爱北京天安门"}) Out[10]: &＃39;{"title": "\\u6211\\u7231\\u5317\\u4eac\\u5929\\u5b89\\u95e8"}&＃39;

果然&＃xff0c;确实变成了这个样子&＃xff0c;看来是json库搞得鬼。
先不管他&＃xff0c;看看这个结果load出来什么样子&＃xff1a;

1 2	In [9]: json.loads(&＃39;{"title": "\\u6211\\u7231\\u5317\\u4eac\\u5929\\u5b89\\u95e8"}&＃39;) Out[9]: {u&＃39;title&＃39;: u&＃39;\u6211\u7231\u5317\u4eac\u5929\u5b89\u95e8&＃39;}

确实load没问题&＃xff0c;但是可以看到&＃xff0c;最后的结果和我当时dumps的出入蛮大的&＃xff0c;由原来的utf8 str形式&＃xff0c;变为了unicode形式&＃xff0c;就连字典的key也都是unicode了。

好吧&＃xff0c;所以现在就有了两个问题。

为什么utf8字符串, json dumps后不是原来形式?
为什么loads回来的数据全是unicode形式&＃xff1f;

为什么utf8字符串, json dumps后不是原来形式?

看下官方文档&＃xff1a;
python encode
json.dumps方法做的就是将python数据格式按照上图的映射方式转换为json格式。Python str和unicode都可以转换成json 的string形式&＃xff0c;我们知道str和unicode差别很大啊&＃xff0c;如果一个python字典中&＃xff0c;同时有str和unicode的时候&＃xff0c;json dump怎么处理呢&＃xff1f;试一下&＃xff1a;

1 2	In [12]: json.dumps({"title_str":"我爱北京天安门", "title_unicode":u"我爱北京天安门"}) Out[12]: &＃39;{"title_unicode": "\\u6211\\u7231\\u5317\\u4eac\\u5929\\u5b89\\u95e8", "title_str": "\\u6211\\u7231\\u5317\\u4eac\\u5929\\u5b89\\u95e8"}&＃39;

没有异常&＃xff0c;并且都是最后按照unicode的方式统一处理的。看来python是先将str decode为unicode&＃xff0c;然后再用unicode进行编码的。

这样本来无可厚非&＃xff0c;自己统一好编码格式就行了&＃xff0c;loads的时候按照编码的方式&＃xff0c;反过来解码。但是问题是&＃xff0c;和我们进行交互的人未必也用的python啊&＃xff0c;当他用其他的语言对json解码的时候&＃xff0c;还原回来就是一堆乱码了&＃xff0c;我们能不能让json库&＃xff0c;确实编码成utf8形式呢&＃xff1f;

官方文档如是说&＃xff1a;

If ensure_ascii is True (the default), all non-ASCII characters in the output are escaped with \uXXXX sequences, and the results are str instances consisting of ASCII characters only. If ensure_ascii is False, a result may be a unicode instance. This usually happens if the input contains unicode strings or the encoding parameter is used.

看来是 ensure_ascii 参数为 True 的时候&＃xff0c;确保了所有非ASCII字符都转义成 \uXXXX 的ASCII序列。
如果我们设置为False&＃xff0c;就可以还原本来面目了吗&＃xff1f;试试&＃xff1a;

1 2	In [14]: json.dumps({"title_str":"我爱北京天安门"}, ensure_ascii&＃61;False) Out[14]: &＃39;{"title_str": "\xe6\x88\x91\xe7\x88\xb1\xe5\x8c\x97\xe4\xba\xac\xe5\xa4\xa9\xe5\xae\x89\xe9\x97\xa8"}&＃39;

果然哦&＃xff0c;我们干脆看看python json库源码怎么实现的吧, 主要就是下列这个判断

if self.ensure_ascii:
return encode_basestring_ascii(o) # 先将字符串根据encoding参数的编码统一转化为unicode&＃xff0c;然后连接字符串
else:
return encode_basestring(o) # 直接连接字符串

既然ensure_ascii &＃61; False时, 没有做类型的转换&＃xff0c;所以我们原来是什么&＃xff0c;编码后就是什么。但这带来了以下副作用:

如果我们要转换的python数据类型&＃xff0c;如果既包含str又包含unicode&＃xff0c;在连接字符串的时候肯定会抛出编码异常

1 2	In [13]: json.dumps({"title_str":"我爱北京天安门", "title_unicode":u"我爱北京天安门"}, ensure_ascii&＃61;False) "UnicodeDecodeError: &＃39;ascii&＃39; codec can&＃39;t decode byte 0xe6 in position 1: ordinal not in range(128)"

如果全部都是unicode进行字符串连接&＃xff0c;返回值也是unicode

1 2	In [3]: json.dumps({"title_str":u"我爱北京天安门", "title":u"我爱世界"}, ensure_ascii&＃61;False) Out[3]: u&＃39;{"title": "\u6211\u7231\u4e16\u754c", "title_str": "\u6211\u7231\u5317\u4eac\u5929\u5b89\u95e8"}&＃39;

如果全部都是str进行字符串连接&＃xff0c;返回值也是str

1 2	In [2]: json.dumps({"title_str":"我爱北京天安门", "title":"我爱世界"}, ensure_ascii&＃61;False) Out[2]: &＃39;{"title": "\xe6\x88\x91\xe7\x88\xb1\xe4\xb8\x96\xe7\x95\x8c", "title_str": "\xe6\x88\x91\xe7\x88\xb1\xe5\x8c\x97\xe4\xba\xac\xe5\xa4\xa9\xe5\xae\x89\xe9\x97\xa8"}&＃39;

为了能将json字符串通用的和其他语言交换&＃xff0c;我们不得不保证&＃xff0c;原始python数据类型必须是统一的。要么全是UTF8的str类型&＃xff0c;要么全部是unicode&＃xff0c;最后在encode为utf8, 否则就会有异常这个也是动态类型要付出的代价吧。

为什么loads回来的数据全是unicode形式&＃xff1f;

看下官方文档&＃xff1a;
python decode
与dumps相反, json.loads 方法做的就是将json数据格式按照上图的映射方式转换为python类型。我们可以看json string 转换回来只有一种格式&＃xff0c;那就是unicode&＃xff0c;这样就能解释我们看到的现象了&＃xff0c;就连dict key都是unicode的。