热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

开发笔记:python爬虫爬取内容时,xa0u00A0,u0020,u3000的含义与处理方法

篇首语:本文由编程笔记#小编为大家整理,主要介绍了python爬虫爬取内容时,xa0u00A0,u0020,u3000的含义与处理方法相关的知识,希望对你有一定的参考价值。

篇首语:本文由编程笔记#小编为大家整理,主要介绍了python 爬虫爬取内容时, xa0 u00A0,u0020, u3000 的含义与处理方法相关的知识,希望对你有一定的参考价值。






python 爬虫爬取内容时, \\xa0 、 \\u3000 的含义与处理方法
HTML转义字符&npsp;表示non-breaking space,unicode编码为u'\\xa0',超出gbk编码范围?

如何处理:.extract_first().replace(u'\\xa0', u' ').strip().encode('utf-8','replace') --->针对列表使用



\\xa0 是不间断空白符  
str.replace(u’\\xa0’, u’ ‘)


\\u3000 是全角的空白符
str.replace(u’\\u3000’,u’ ‘)


title.strip(‘\\r\\n’).replace(u’\\u3000’, u’ ‘).replace(u’\\xa0’, u’ ‘)
content.strip(“”).strip(‘\\r\\n’).replace(u’\\u3000’, u’ ‘).replace(u’\\xa0’, u’ ‘)


补充:三种空格unicode(\\u00A0,\\u0020,\\u3000)表示的区别

1.不间断空格\\u00A0,主要用在office中,让一个单词在结尾处不会换行显示,快捷键ctrl+shift+space ;
2.半角空格(英文符号)\\u0020,代码中常用的;
3.全角空格(中文符号)\\u3000,中文文章中使用;

 

 

 




推荐阅读
author-avatar
手浪用户2702933404
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有