当前位置: 开发笔记 > 编程语言 > 正文

python爬虫requests一万条数据_Python爬虫之使用requests库抓取二进制数据

作者：姥姥的妹妹的儿子跟我没关系 | 来源：互联网 | 2023-08-08 15:45

抓取二进制数据在上面的例子中，我们抓取的是知乎的一个页面，实际上它返回的是一个HTML文档。如果想抓取图片、视频、音频等文件应该怎么办呢？

抓取二进制数据

在上面的例子中&＃xff0c;我们抓取的是知乎的一个页面&＃xff0c;实际上它返回的是一个HTML文档。如果想抓取图片、视频、音频等文件应该怎么办呢&＃xff1f;

图片、音频、视频这些文件实际上都是由二进制码组成的&＃xff0c;由于有特定的保存格式和对应的解析方式&＃xff0c;我们才可以看到这些形形色色的多媒体。所以&＃xff0c;想要抓取它们&＃xff0c;就要拿到它们的二进制码。

下面以GitHub的站点图标为例来看一下&＃xff1a;

u&＃61;2692051188,1373395475&fm&＃61;173&app&＃61;49&f&＃61;JPEG?w&＃61;640&h&＃61;237&s&＃61;E8C2A1444EE08F704A6D75070000E0C1

这里抓取的内容是站点图标&＃xff0c;也就是在浏览器每一个标签上显示的小图标&＃xff1a;

u&＃61;4219451259,2193669674&fm&＃61;173&app&＃61;49&f&＃61;JPEG?w&＃61;364&h&＃61;90&s&＃61;E2231F604B624D304C5568DA000080B3 站点图标

这里打印了Response对象的两个属性&＃xff0c;一个是text&＃xff0c;另一个是content。

运行结果如图所示&＃xff0c;其中前两行是r.text的结果&＃xff0c;最后一行是r.content的结果&＃xff1a;

u&＃61;93411126,2197500220&fm&＃61;173&app&＃61;49&f&＃61;JPEG?w&＃61;640&h&＃61;159&s&＃61;C8E23365CAE089704C51F8020100E081 二进制码

可以注意到&＃xff0c;前者出现了乱码&＃xff0c;后者结果前带有一个b&＃xff0c;这代表是bytes类型的数据。由于图片是二进制数据&＃xff0c;所以前者在打印时转化为str类型&＃xff0c;也就是图片直接转化为字符串&＃xff0c;这理所当然会出现乱码。

接着我们将刚才提取到的图片保存下来&＃xff1a;

u&＃61;1047374399,1904096226&fm&＃61;173&app&＃61;49&f&＃61;JPEG?w&＃61;640&h&＃61;226&s&＃61;A8C2A5445BE0BD70466D74030000E0C1 代码

这里用了open( )方法&＃xff0c;它的第一个参数是文件名称&＃xff0c;第二个参数代表以二进制写的形式打开&＃xff0c;可以向文件里写入二进制数据。

运行结束之后&＃xff0c;可以发现在文件夹中出现了名为favicon.ico的图标&＃xff1a;

u&＃61;2383892025,515219014&fm&＃61;173&app&＃61;49&f&＃61;JPEG?w&＃61;640&h&＃61;201&s&＃61;57B5EC6C8A820F705EB9201F0000D0C2 图标

同样地&＃xff0c;视频和音频文件也可以用这种方法获取。

与urllib.request一样&＃xff0c;我们也可以通过headers参数来传递头信息。

比如&＃xff0c;在上面“知乎”的例子中&＃xff0c;如果不传递headers&＃xff0c;就不能正常请求&＃xff1a;

u&＃61;2082635713,2720740992&fm&＃61;173&app&＃61;49&f&＃61;JPEG?w&＃61;640&h&＃61;257&s&＃61;A8C2A1443AE09F6C485D75060000E0C1 代码

运行结果如下&＃xff1a;

u&＃61;4163668817,4186607747&fm&＃61;173&app&＃61;49&f&＃61;JPEG?w&＃61;640&h&＃61;279&s&＃61;69E213671BE09F684C59F1060000E0C1

但如果加上headers并加上User-Agent信息&＃xff0c;那就没有问题了&＃xff1b;

u&＃61;4255912064,1195221591&fm&＃61;173&app&＃61;49&f&＃61;JPEG?w&＃61;640&h&＃61;112&s&＃61;A8C2B74ACEA2B764067D840B0000E0C1

当然&＃xff0c;我们可以在headers这个参数中任意添加其他的字段信息。

POST请求

前面我们了解了最基本的GET请求&＃xff0c;另外一种比较常见的请求方式是POST。使用requests实现POST请求同样非常简单&＃xff0c;示例如下&＃xff1a;

u&＃61;259866594,3344846740&fm&＃61;173&app&＃61;49&f&＃61;JPEG?w&＃61;640&h&＃61;214&s&＃61;A8C2A3444FE189604E5D64070000A0C3

这里还是请求上面图中的网站&＃xff0c;该网站可以判断如果请求是POST方式&＃xff0c;就把相关请求信息返回。运行结果如下&＃xff1a;

u&＃61;69342667,3299667434&fm&＃61;173&app&＃61;49&f&＃61;JPEG?w&＃61;640&h&＃61;407&s&＃61;E0F223655AA4B76E4CD1D40F0000E0C0

可以发现&＃xff0c;我们成功获得了返回结果&＃xff0c;其中form部分就是提交的数据&＃xff0c;这就证明POST请求成功发送了。

响应

发送请求后&＃xff0c;得到的自然就是响应。在上面的实例中&＃xff0c;我们使用text和content获取了响应的内容。此外&＃xff0c;还有很多属性和方法可以用来获取其他信息。比如状态码、响应头、COOKIEs等。示例如下&＃xff1a;

u&＃61;9700187,2036878446&fm&＃61;173&app&＃61;49&f&＃61;JPEG?w&＃61;640&h&＃61;284&s&＃61;A8C0B54412F0AD6A0AED79030000E0C1

这里分别打印输出status_code属性得到状态码&＃xff0c;输出headers属性得到响应头&＃xff0c;输出COOKIEs属性得到COOKIEs&＃xff0c;输出url属性得到URL&＃xff0c;输出history属性得到请求历史&＃xff1a;

u&＃61;3501743459,3552993860&fm&＃61;173&app&＃61;49&f&＃61;JPEG?w&＃61;640&h&＃61;80

状态码通常用来判断是否请求成功&＃xff0c;我们这里可以看到状态码是403&＃xff0c;所以我们的请求是不成功的&＃xff0c;我们可以通过添加headers来尝试看看能否请求成功&＃xff1a;

u&＃61;1908234334,4127742136&fm&＃61;173&app&＃61;49&f&＃61;JPEG?w&＃61;640&h&＃61;125&s&＃61;A0C2B548CEA2B7740AFCC50F0000E0C1 加入头部信息

运行结果如下

u&＃61;1075321549,3087861610&fm&＃61;173&app&＃61;49&f&＃61;JPEG?w&＃61;640&h&＃61;91 请求成功

我们可以看到在加入了头部信息之后&＃xff0c;我们的请求就成功了。

推荐阅读

object
七牛上传图片成功之后，图片裂了

图像因存在错误而无法显示 ... [详细]

蜡笔小新 2023-12-11 13:17:11
default
如何实现织梦DedeCms全站伪静态

本文介绍了如何通过修改织梦DedeCms源代码来实现全站伪静态，以提高管理和SEO效果。全站伪静态可以避免重复URL的问题，同时通过使用mod_rewrite伪静态模块和.htaccess正则表达式，可以更好地适应搜索引擎的需求。文章还提到了一些相关的技术和工具，如Ubuntu、qt编程、tomcat端口、爬虫、php request根目录等。 ... [详细]

蜡笔小新 2023-12-14 19:45:47
io
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
io
android listview OnItemClickListener失效原因

最近在做listview时发现OnItemClickListener失效的问题，经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效，还会导致单击后listview每个item的背景改变，使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况，并提供了解决方法。 ... [详细]

蜡笔小新 2023-12-14 14:25:50
jsp
java 线程死锁模拟

1，关于死锁的理解死锁，我们可以简单的理解为是两个线程同时使用同一资源，两个线程又得不到相应的资源而造成永无相互等待的情况。 2，模拟死锁背景介绍：我们创建一个朋友 ... [详细]

蜡笔小新 2023-12-13 19:12:25
default
Swing组件及其用法，图标接口的定义和创建方法

本文介绍了Swing组件的用法，重点讲解了图标接口的定义和创建方法。图标接口用来将图标与各种组件相关联，可以是简单的绘画或使用磁盘上的GIF格式图像。文章详细介绍了图标接口的属性和绘制方法，并给出了一个菱形图标的实现示例。该示例可以配置图标的尺寸、颜色和填充状态。 ... [详细]

蜡笔小新 2023-12-11 21:03:59
object
Wince程序内存和存储内存的分析及作用

本文分析了Wince程序内存和存储内存的分布及作用。Wince内存包括系统内存、对象存储和程序内存，其中系统内存占用了一部分SDRAM，而剩下的30M为程序内存和存储内存。对象存储是嵌入式wince操作系统中的一个新概念，常用于消费电子设备中。此外，文章还介绍了主电源和后备电池在操作系统中的作用。 ... [详细]

蜡笔小新 2023-12-10 16:21:27
object
C# Word模版打印方案详解

本文详细介绍了使用C#实现Word模版打印的方案。包括添加COM引用、新建Word操作类、开启Word进程、加载模版文件等步骤。通过该方案可以实现C#对Word文档的打印功能。 ... [详细]

蜡笔小新 2023-12-10 14:09:00
default
Android 新闻App的本地服务器搭建教程

本文介绍了在开发Android新闻App时，搭建本地服务器的步骤。通过使用XAMPP软件，可以一键式搭建起开发环境，包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表，并设置相应的属性。最后，给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]

蜡笔小新 2023-12-14 17:15:19
jsp
基于layUI的图片上传前预览功能的2种实现方式

本文介绍了基于layUI的图片上传前预览功能的两种实现方式：一种是使用blob+FileReader，另一种是使用layUI自带的参数。通过选择文件后点击文件名，在页面中间弹窗内预览图片。其中，layUI自带的参数实现了图片预览功能。该功能依赖于layUI的上传模块，并使用了blob和FileReader来读取本地文件并获取图像的base64编码。点击文件名时会执行See()函数。摘要长度为169字。 ... [详细]

蜡笔小新 2023-12-14 17:06:58
version
如何去除Win7快捷方式的箭头

本文介绍了如何去除Win7快捷方式的箭头的方法，通过生成一个透明的ico图标并将其命名为Empty.ico，将图标复制到windows目录下，并导入注册表，即可去除箭头。这样做可以改善默认快捷方式的外观，提升桌面整洁度。 ... [详细]

蜡笔小新 2023-12-14 16:17:05
object
关于cuowu类的错误提示和使用AdjustmentListener的问题

本文讨论了一个关于cuowu类的问题，作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案，并给出了两个可能导致错误的原因。 ... [详细]

蜡笔小新 2023-12-13 22:09:56
object
PHP中的单例模式与静态变量的区别及使用方法

本文介绍了PHP中的单例模式与静态变量的区别及使用方法。在PHP中，静态变量的存活周期仅仅是每次PHP的会话周期，与Java、C++不同。静态变量在PHP中的作用域仅限于当前文件内，在函数或类中可以传递变量。本文还通过示例代码解释了静态变量在函数和类中的使用方法，并说明了静态变量的生命周期与结构体的生命周期相关联。同时，本文还介绍了静态变量在类中的使用方法，并通过示例代码展示了如何在类中使用静态变量。 ... [详细]

蜡笔小新 2023-12-13 18:03:36
jsp
后台获取视图对应的字符串

1.帮助类后台获取视图对应的字符串publicclassViewHelper{将View输出为字符串(注：不会执行对应的ac ... [详细]

蜡笔小新 2023-12-13 18:03:01
post
Web学习历程记录（七）——Tomcat基本概念和配置

本文介绍了Web学习历程记录中关于Tomcat的基本概念和配置。首先解释了Web静态Web资源和动态Web资源的概念，以及C/S架构和B/S架构的区别。然后介绍了常见的Web服务器，包括Weblogic、WebSphere和Tomcat。接着详细讲解了Tomcat的虚拟主机、web应用和虚拟路径映射的概念和配置过程。最后简要介绍了http协议的作用。本文内容详实，适合初学者了解Tomcat的基础知识。 ... [详细]

蜡笔小新 2023-12-13 17:08:24

姥姥的妹妹的儿子跟我没关系

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章