当前位置: 开发笔记 > 编程语言 > 正文

python爬虫requestsget_python—网络爬虫（Requests库的get方法）

作者：雷神鑫源义_341 | 来源：互联网 | 2023-09-15 17:51

Requests库的七个主要方法------------------------------------------------方法说明requests.request()

Requests库的七个主要方法

------------------------------------------------

方法

说明

requests.request()

构造一个请求&＃xff0c;支撑以下各方法的基础方法

requests.get()

获取HTML网页的主要方法&＃xff0c;对应于HTTP的GET

requests.head()

获取HTML网页的头信息的方法&＃xff0c;对应于HTTP的HEAD

requests.post()

向HTML网页提交POST请求的方法&＃xff0c;对应于HTTP的POST

requests.put()

向HTML网页提交PUT请求的方法&＃xff0c;对应于HTTP的PUT

requests.patch()

向HTML网页提交局部修改请求&＃xff0c;对应于HTTP的PATCH

requests.delete()

向HTML网页提交删除请求的方法&＃xff0c;对应于HTTP的DELETE

r &＃61; requests.get(url) :

构造一个向服务器请求资源的Request对象(Request),并且get方法返回一个包含服务器资源的Response对象&＃xff1b;

requests.get函数的完整参数如下&＃xff1a;

requests.get(url, params &＃61; None, **kwargs)

url: 拟获取页面的url链接

params: url中额外参数&＃xff0c;字典或字节流格式&＃xff0c;可选

**kwargs:12个控访问的参数

Requests库的2个重要的对象Request 和 Response对象&＃xff08;Response对象包含爬虫返回的所有内容&＃xff09;

>>>import requests #导入requests库

>>> r &＃61; requests.get("http://www.baidu.com")

>>>print(r.status_code) #检测请求的状态码&＃xff0c;200表示请求成功

200

>>>type(r)

>>>r.headers

{&＃39;Cache-Control&＃39;: &＃39;private, no-cache, no-store, proxy-revalidate, no-transform&＃39;, &＃39;Connection&＃39;: &＃39;Keep-Alive&＃39;, &＃39;Content-Encoding&＃39;: &＃39;gzip&＃39;, &＃39;Content-Type&＃39;: &＃39;text/html&＃39;, &＃39;Date&＃39;: &＃39;Tue, 05 Jun 2018 11:48:31 GMT&＃39;, &＃39;Last-Modified&＃39;: &＃39;Mon, 23 Jan 2017 13:27:36 GMT&＃39;, &＃39;Pragma&＃39;: &＃39;no-cache&＃39;, &＃39;Server&＃39;: &＃39;bfe/1.0.8.18&＃39;, &＃39;Set-COOKIE&＃39;: &＃39;BDORZ&＃61;27315; max-age&＃61;86400; domain&＃61;.baidu.com; path&＃61;/&＃39;, &＃39;Transfer-Encoding&＃39;: &＃39;chunked&＃39;}

Response对象的属性:

属性

说明

r.status_code

HTTP请求的返回状态&＃xff0c;200表求连接成功&＃xff0c;404表示失败

r.text

HTTP响应内容的字符串形式&＃xff0c;即&＃xff0c;url对应的页面内容

r.encoding

从HTTP header中猜测的响应内容编码方式

r.apparent_encoding

从内容中分析出的响应内容编码方式&＃xff08;备选编码方式&＃xff09;

r.content

HTTP响应内容的二进制形式

Response对象的处理流程如下图示&＃xff1a;

>>>import requests

>>>r &＃61; requests.get("http://www.baidu.com")

>>> r.status_code

200

>>> r.text #发现是乱码

>>> r.encoding #查看它的编码

&＃39;ISO-8859-1&＃39;

>>> r.apparent_encoding#再查看它的apparent_encoding编码

&＃39;utf-8&＃39;

>>>r.encoding &＃61;&＃39;utf-8&＃39; #用&＃39;utf-8&＃39;编码来替换&＃39;ISO-8859-1&＃39;这个编码。

>>>r.text #结果可以正常显示网页内容

理解Response的编码:

属性

说明

r.encoding

从HTTP header中猜测的响应内容编码方式

r.apparent_encoding

从内容中分析出的响应编码方式&＃xff08;备选编码方式&＃xff09;

r.encoding:如果header中不存在charset,则认为编码为&＃39;ISO-8859-1&＃39;

r.apparent_encoding: 根据网页内容分析出的编码方式

推荐阅读

utf-8
网页数据抓取与解析入门指南

本指南介绍了 `requests` 库的基本使用方法，详细解释了其七个主要函数。其中，`requests.request()` 是构建请求的基础方法，支持其他高级功能的实现。此外，我们还重点介绍了如何使用 `requests.get()` 方法来获取 HTML 网页内容，这是进行网页数据抓取和解析的重要步骤。通过这些基础方法，读者可以轻松上手并掌握网页数据抓取的核心技巧。 ... [详细]

蜡笔小新 2024-11-08 17:56:30
audio
技术分享：使用 Flask、AngularJS 和 Jinja2 构建高效前后端交互系统

技术分享：使用 Flask、AngularJS 和 Jinja2 构建高效前后端交互系统 ... [详细]

蜡笔小新 2024-11-11 15:24:24
php
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
byte
Python 程序转换为 EXE 文件：详细解析 .py 脚本打包成独立可执行文件的方法与技巧

在开发了几个简单的爬虫 Python 程序后，我决定将其封装成独立的可执行文件以便于分发和使用。为了实现这一目标，首先需要解决的是如何将 Python 脚本转换为 EXE 文件。在这个过程中，我选择了 Qt 作为 GUI 框架，因为之前对此并不熟悉，希望通过这个项目进一步学习和掌握 Qt 的基本用法。本文将详细介绍从 .py 脚本到 EXE 文件的整个过程，包括所需工具、具体步骤以及常见问题的解决方案。 ... [详细]

蜡笔小新 2024-11-09 14:59:47
php
Python 实战：异步爬虫（协程技术）与分布式爬虫（多进程应用）深入解析

本文将深入探讨 Python 异步爬虫和分布式爬虫的技术细节，重点介绍协程技术和多进程应用在爬虫开发中的实际应用。通过对比多进程和协程的工作原理，帮助读者理解两者在性能和资源利用上的差异，从而在实际项目中做出更合适的选择。文章还将结合具体案例，展示如何高效地实现异步和分布式爬虫，以提升数据抓取的效率和稳定性。 ... [详细]

蜡笔小新 2024-11-05 14:12:56
byte
浅析python实现布隆过滤器及Redis中的缓存穿透原理_python

本文带你了解了位图的实现，布隆过滤器的原理及Python中的使用，以及布隆过滤器如何应对Redis中的缓存穿透，相信你对布隆过滤 ... [详细]

蜡笔小新 2024-11-13 16:43:07
php
在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解

在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解 ... [详细]

蜡笔小新 2024-11-11 17:28:29
config
利用Struts1构建简易计算器：采用DispatchAction处理请求，动态Form优化开发流程，提供用户友好的错误提示

本文介绍了如何利用Struts1框架构建一个简易的四则运算计算器。通过采用DispatchAction来处理不同类型的计算请求，并使用动态Form来优化开发流程，确保代码的简洁性和可维护性。同时，系统提供了用户友好的错误提示，以增强用户体验。 ... [详细]

蜡笔小新 2024-11-09 19:48:22
php
利用爬虫技术抓取数据，结合Fiddler与Postman在Chrome中的应用优化提交流程

本文探讨了如何利用爬虫技术抓取目标网站的数据，并结合Fiddler和Postman工具在Chrome浏览器中的应用，优化数据提交流程。通过详细的抓包分析和模拟提交，有效提升了数据抓取的效率和准确性。此外，文章还介绍了如何使用这些工具进行调试和优化，为开发者提供了实用的操作指南。 ... [详细]

蜡笔小新 2024-11-09 09:05:16
hash
技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告

技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告 ... [详细]

蜡笔小新 2024-11-07 14:33:19
callback
IOS Run loop详解

为什么80%的码农都做不了架构师？转自http:blog.csdn.netztp800201articledetails9240913感谢作者分享Objecti ... [详细]

蜡笔小新 2024-11-13 12:14:35
schema
Android 自定义加载对话框 CustomProgressDialog

本文介绍如何在 Android 中自定义加载对话框 CustomProgressDialog，包括自定义 View 类和 XML 布局文件的详细步骤。 ... [详细]

蜡笔小新 2024-11-12 21:51:00
php
php更新数据库字段的函数是,php更新数据库字段的函数是

php更新数据库字段的函数是,php更新数据库字段的函数是 ... [详细]

蜡笔小新 2024-11-12 11:37:31
hash
Keepalived 的健康检查机制与配置方法

Keepalived 提供了多种强大且灵活的后端健康检查机制，包括 HTTP_GET、SSL_GET、TCP_CHECK、SMTP_CHECK 和 MISC_CHECK 等多种检测方法。这些健康检查功能确保了高可用性环境中的服务稳定性和可靠性。通过合理配置这些检查方式，可以有效监测后端服务器的状态，及时发现并处理故障，从而提高系统的整体性能和可用性。 ... [详细]

蜡笔小新 2024-11-09 15:46:26
replace
在CentOS系统中安装Scrapy时常见的问题及解决方法

在 CentOS 7 系统中安装 Scrapy 时遇到了一些挑战。尽管 Scrapy 在 Ubuntu 上安装简便，但在 CentOS 7 上需要额外的配置和步骤。本文总结了常见问题及其解决方案，帮助用户顺利安装并使用 Scrapy 进行网络爬虫开发。 ... [详细]

蜡笔小新 2024-11-09 15:28:11

雷神鑫源义_341

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章