热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Scrapy的Response编码格式

当通过spider发出请求之后会返回response。response是一个类,其中包括一些内置的属性。1. response.url返回请求地址2.response.body返回

当通过spider 发出请求之后会返回response。response是一个类,其中包括一些内置的属性。

1. response.url 返回请求地址

2.response.body 返回请求内容

这里需要注意,body类型是str,所以body的内容编码类型是爬取页面的原类型。


# 根据需求转化 response.encoding
response.body.decode(response.encoding)

例如最近就遇到抓取内容涉及中文时乱码:“\xe6\x80\xa7\xe4\xbc\xa0”

在chardet.detect(response.body) 显示乱码是 UTF-8编码,那么可以通过下列方式转化编码:


response.body
# 输出的是\xe7\x96\xbe\xe7\x97\x85\xe7\x9a\x84\xe6\xa6\x82\xe8\xbf\xb0
response.body.decode('utf-8')
# 转码后输出:“疾病的概述"”

 



推荐阅读
  •  开篇:zxing.net是.net平台下编解条形码和二维码的工具。 首先创建新项目    选择mvc模板     添加一个控制器  在项目引用中的引用 ... [详细]
  • linux json 写sql注入,sql注入之json注入(php代码)
    环境phpstudyphp服务端代码security数据库中的users表中的username,password字段用户名adminJSON服务端代码大家实际测试中注 ... [详细]
  • 首页#father{border:0pxso ... [详细]
  • 这篇文章主要介绍“大文本数据怎么导入导出到数据库”,在日常操作中,相信很多人在大文本数据怎么导入导出到数据库问题上存在疑惑,小编查阅了各 ... [详细]
  • 篇首语:本文由编程笔记#小编为大家整理,主要介绍了opencv类简单分析:Point相关的知识,希望对你有一定的参考价值。定义 ... [详细]
  • 一、问题开发中遇到将其它数据库数据插入到mysql数据库表中一直会报类似如下错误:Incorrectstringvalue:\xE6\x88\x91forcolumn ... [详细]
  • [字符编码]Numeric Character Reference和HTML Entities(一)
    你是否在dreamweaver里编辑网页的时候看到Σ这样的东西,你曾使用过 这样的玩意吧,或者你在调试webservice的时候看到返回xml字符串中现 ... [详细]
  • Matlab中利用mex编译Opencv实现画板绘图功能
    图形绘制是标记和可视化数据的重要方法.通过在Matlab中集成画板绘图功能,可为科学计算提供便利.1设置Matlab支持Opencv编译操作系统:麒麟14.04(基于Ubu ... [详细]
  • oracle text db2,从Oracle 到DB2(一)
    在实际的软件项目的开发过程中,特别是在企业的应用系统集成(EAI)项目中广大开发人员经常遇到不同关系型数据库之间的数据移植问题。笔者根据自己在工作中的不同数据库数据移 ... [详细]
  • Linux文件目录和权限
    Linux文件目录和权限前言:Linux一般将文件可存取的身份分为三个类别,分别是ownergroupothers,根据权限划分,每个目录都可以拥有相对身份的-rwx[可读可写可执 ... [详细]
  • post请求,携带json对象参数模拟获取tokenpublicstaticStringgetToken()throwsIOException{创建连接CloseableHttp ... [详细]
  • 这两天做了一个小项目,里面有个下载进度的进度条需要制作。先看呈现的效果:点击进度,然后依次递增,直到递增到百分之百。现在把这部分代码分享下来。<!DOCTYPEhtml><html ... [详细]
  • 开发笔记:图书管理系统( JSP + JDBC + Servlet )实现01: 流程分析和数据库建表阶段
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了图书管理系统(JSP+JDBC+Servlet)实现-01:流程分析和数据库建表阶段相关的知识,希望对你有一定的参考价值。 ... [详细]
  • 关键词:LinuxJDKJRE解决JRE中文乱码解决FireFox不支持appletl 安装JDK1、  安装jdkroot用户进入jdk安装文件所在目录,键入chmoda+xjd ... [详细]
  • 本文介绍了在git中如何对指定的commit id打标签,并解决了忘记打标签的问题。通过查找历史提交的commit id,可以在任意时间点打上标签。同时,还介绍了git中的一些常用命令和操作。 ... [详细]
author-avatar
迪迪
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有