热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

python爬虫requests一万条数据_Python爬虫之使用requests库抓取二进制数据

抓取二进制数据在上面的例子中,我们抓取的是知乎的一个页面,实际上它返回的是一个HTML文档。如果想抓取图片、视频、音频等文件应该怎么办呢?

抓取二进制数据

在上面的例子中,我们抓取的是知乎的一个页面,实际上它返回的是一个HTML文档。如果想抓取图片、视频、音频等文件应该怎么办呢?

图片、音频、视频这些文件实际上都是由二进制码组成的,由于有特定的保存格式和对应的解析方式,我们才可以看到这些形形色色的多媒体。所以,想要抓取它们,就要拿到它们的二进制码。

下面以GitHub的站点图标为例来看一下:

u=2692051188,1373395475&fm=173&app=49&f=JPEG?w=640&h=237&s=E8C2A1444EE08F704A6D75070000E0C1

这里抓取的内容是站点图标,也就是在浏览器每一个标签上显示的小图标:

u=4219451259,2193669674&fm=173&app=49&f=JPEG?w=364&h=90&s=E2231F604B624D304C5568DA000080B3站点图标

这里打印了Response对象的两个属性,一个是text,另一个是content。

运行结果如图所示,其中前两行是r.text的结果,最后一行是r.content的结果:

u=93411126,2197500220&fm=173&app=49&f=JPEG?w=640&h=159&s=C8E23365CAE089704C51F8020100E081二进制码

可以注意到,前者出现了乱码,后者结果前带有一个b,这代表是bytes类型的数据。由于图片是二进制数据,所以前者在打印时转化为str类型,也就是图片直接转化为字符串,这理所当然会出现乱码。

接着我们将刚才提取到的图片保存下来:

u=1047374399,1904096226&fm=173&app=49&f=JPEG?w=640&h=226&s=A8C2A5445BE0BD70466D74030000E0C1代码

这里用了open( )方法,它的第一个参数是文件名称,第二个参数代表以二进制写的形式打开,可以向文件里写入二进制数据。

运行结束之后,可以发现在文件夹中出现了名为favicon.ico的图标:

u=2383892025,515219014&fm=173&app=49&f=JPEG?w=640&h=201&s=57B5EC6C8A820F705EB9201F0000D0C2图标

同样地,视频和音频文件也可以用这种方法获取。

与urllib.request一样,我们也可以通过headers参数来传递头信息。

比如,在上面“知乎”的例子中,如果不传递headers,就不能正常请求:

u=2082635713,2720740992&fm=173&app=49&f=JPEG?w=640&h=257&s=A8C2A1443AE09F6C485D75060000E0C1代码

运行结果如下:

u=4163668817,4186607747&fm=173&app=49&f=JPEG?w=640&h=279&s=69E213671BE09F684C59F1060000E0C1

但如果加上headers并加上User-Agent信息,那就没有问题了;

u=4255912064,1195221591&fm=173&app=49&f=JPEG?w=640&h=112&s=A8C2B74ACEA2B764067D840B0000E0C1

当然,我们可以在headers这个参数中任意添加其他的字段信息。

POST请求

前面我们了解了最基本的GET请求,另外一种比较常见的请求方式是POST。使用requests实现POST请求同样非常简单,示例如下:

u=259866594,3344846740&fm=173&app=49&f=JPEG?w=640&h=214&s=A8C2A3444FE189604E5D64070000A0C3

这里还是请求上面图中的网站,该网站可以判断如果请求是POST方式,就把相关请求信息返回。运行结果如下:

u=69342667,3299667434&fm=173&app=49&f=JPEG?w=640&h=407&s=E0F223655AA4B76E4CD1D40F0000E0C0

可以发现,我们成功获得了返回结果,其中form部分就是提交的数据,这就证明POST请求成功发送了。

响应

发送请求后,得到的自然就是响应。在上面的实例中,我们使用text和content获取了响应的内容。此外,还有很多属性和方法可以用来获取其他信息。比如状态码、响应头、COOKIEs等。示例如下:

u=9700187,2036878446&fm=173&app=49&f=JPEG?w=640&h=284&s=A8C0B54412F0AD6A0AED79030000E0C1

这里分别打印输出status_code属性得到状态码,输出headers属性得到响应头,输出COOKIEs属性得到COOKIEs,输出url属性得到URL,输出history属性得到请求历史:

u=3501743459,3552993860&fm=173&app=49&f=JPEG?w=640&h=80

状态码通常用来判断是否请求成功,我们这里可以看到状态码是403,所以我们的请求是不成功的,我们可以通过添加headers来尝试看看能否请求成功:

u=1908234334,4127742136&fm=173&app=49&f=JPEG?w=640&h=125&s=A0C2B548CEA2B7740AFCC50F0000E0C1加入头部信息

运行结果如下

u=1075321549,3087861610&fm=173&app=49&f=JPEG?w=640&h=91请求成功

我们可以看到在加入了头部信息之后,我们的请求就成功了。



推荐阅读
  • 图像因存在错误而无法显示 ... [详细]
  • 如何实现织梦DedeCms全站伪静态
    本文介绍了如何通过修改织梦DedeCms源代码来实现全站伪静态,以提高管理和SEO效果。全站伪静态可以避免重复URL的问题,同时通过使用mod_rewrite伪静态模块和.htaccess正则表达式,可以更好地适应搜索引擎的需求。文章还提到了一些相关的技术和工具,如Ubuntu、qt编程、tomcat端口、爬虫、php request根目录等。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • android listview OnItemClickListener失效原因
    最近在做listview时发现OnItemClickListener失效的问题,经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效,还会导致单击后listview每个item的背景改变,使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况,并提供了解决方法。 ... [详细]
  • 1,关于死锁的理解死锁,我们可以简单的理解为是两个线程同时使用同一资源,两个线程又得不到相应的资源而造成永无相互等待的情况。 2,模拟死锁背景介绍:我们创建一个朋友 ... [详细]
  • 本文介绍了Swing组件的用法,重点讲解了图标接口的定义和创建方法。图标接口用来将图标与各种组件相关联,可以是简单的绘画或使用磁盘上的GIF格式图像。文章详细介绍了图标接口的属性和绘制方法,并给出了一个菱形图标的实现示例。该示例可以配置图标的尺寸、颜色和填充状态。 ... [详细]
  • 本文分析了Wince程序内存和存储内存的分布及作用。Wince内存包括系统内存、对象存储和程序内存,其中系统内存占用了一部分SDRAM,而剩下的30M为程序内存和存储内存。对象存储是嵌入式wince操作系统中的一个新概念,常用于消费电子设备中。此外,文章还介绍了主电源和后备电池在操作系统中的作用。 ... [详细]
  • 本文详细介绍了使用C#实现Word模版打印的方案。包括添加COM引用、新建Word操作类、开启Word进程、加载模版文件等步骤。通过该方案可以实现C#对Word文档的打印功能。 ... [详细]
  • 本文介绍了在开发Android新闻App时,搭建本地服务器的步骤。通过使用XAMPP软件,可以一键式搭建起开发环境,包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表,并设置相应的属性。最后,给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]
  • 基于layUI的图片上传前预览功能的2种实现方式
    本文介绍了基于layUI的图片上传前预览功能的两种实现方式:一种是使用blob+FileReader,另一种是使用layUI自带的参数。通过选择文件后点击文件名,在页面中间弹窗内预览图片。其中,layUI自带的参数实现了图片预览功能。该功能依赖于layUI的上传模块,并使用了blob和FileReader来读取本地文件并获取图像的base64编码。点击文件名时会执行See()函数。摘要长度为169字。 ... [详细]
  • 如何去除Win7快捷方式的箭头
    本文介绍了如何去除Win7快捷方式的箭头的方法,通过生成一个透明的ico图标并将其命名为Empty.ico,将图标复制到windows目录下,并导入注册表,即可去除箭头。这样做可以改善默认快捷方式的外观,提升桌面整洁度。 ... [详细]
  • 本文讨论了一个关于cuowu类的问题,作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案,并给出了两个可能导致错误的原因。 ... [详细]
  • PHP中的单例模式与静态变量的区别及使用方法
    本文介绍了PHP中的单例模式与静态变量的区别及使用方法。在PHP中,静态变量的存活周期仅仅是每次PHP的会话周期,与Java、C++不同。静态变量在PHP中的作用域仅限于当前文件内,在函数或类中可以传递变量。本文还通过示例代码解释了静态变量在函数和类中的使用方法,并说明了静态变量的生命周期与结构体的生命周期相关联。同时,本文还介绍了静态变量在类中的使用方法,并通过示例代码展示了如何在类中使用静态变量。 ... [详细]
  • 后台获取视图对应的字符串
    1.帮助类后台获取视图对应的字符串publicclassViewHelper{将View输出为字符串(注:不会执行对应的ac ... [详细]
  • 本文介绍了Web学习历程记录中关于Tomcat的基本概念和配置。首先解释了Web静态Web资源和动态Web资源的概念,以及C/S架构和B/S架构的区别。然后介绍了常见的Web服务器,包括Weblogic、WebSphere和Tomcat。接着详细讲解了Tomcat的虚拟主机、web应用和虚拟路径映射的概念和配置过程。最后简要介绍了http协议的作用。本文内容详实,适合初学者了解Tomcat的基础知识。 ... [详细]
author-avatar
姥姥的妹妹的儿子跟我没关系
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有