当前位置: 开发笔记 > 编程语言 > 正文

爬虫学习历程小记

作者：空荡荡跑龙套 | 来源：互联网 | 2023-08-23 14:13

初次入手爬虫项目，需要对公司内部网站的数据进行采集。数据库Server端负责人有把下载的链接发给我们，只要输入这个URL，就可以下载一个

初次入手爬虫项目&＃xff0c;需要对公司内部网站的数据进行采集。

数据库Server端负责人有把下载的链接发给我们&＃xff0c;只要输入这个URL&＃xff0c;就可以下载一个包含数据的excel表格。但是&＃xff0c;使用Python爬虫时&＃xff0c;总是遇到405错误。

梳理一下爬虫的学习历程。

1. 了解爬虫的相关知识

下面系列的小文写得浅显易懂&＃xff0c;可以用来扫盲。对于一般的爬虫&＃xff0c;下面的技巧足够用。

【爬虫系列相关文章】

爬虫系列(一) 网络爬虫简介
爬虫系列(二) Chrome抓包分析
爬虫系列(三) urllib的基本使用
爬虫系列(四) 用urllib实现英语翻译
爬虫系列(五) re的基本使用
爬虫系列(六) 用urllib和re爬取百度贴吧
爬虫系列(七) requests的基本使用
爬虫系列(八) 用requests实现天气查询
爬虫系列(九) xpath的基本使用
爬虫系列(十) 用requests和xpath爬取豆瓣电影
爬虫系列(十一) 用requests和xpath爬取豆瓣电影评论
爬虫系列(十二) selenium的基本使用
爬虫系列(十三) 用selenium爬取京东商品

2. 学会使用Chrome浏览器对XHR进行分析

关于XHR&＃xff0c;请参见博文“XHR简介” &＃xff0c;简言之&＃xff1a;XHR是XML Http Request的缩写&＃xff0c;实现了无需刷新即可实现客户端和服务器端的状态更新。

下面以Chrome浏览器为例&＃xff0c;看看如何查看网页中的XHR。

a. 按下Shift&＃43;Ctrl&＃43;C组合键&＃xff1b;

b. 选择Network 页面&＃xff08;下图步骤1&＃xff09;

c. 选择XHR (下图步骤2)

d. 选择感兴趣的XHR对象&＃xff08;下图步骤3&＃xff09;

有时会有很多XHR对象在列表中&＃xff0c;我们要选择对的XHR对象&＃xff1b;可以从"Preview"或者“Response”中查看相关的内容进行确认。

e. 查看Headers页面&＃xff08;下图步骤4&＃xff09;

Headers中的页面包含了关键参数&＃xff0c;我们在编程或者使用其他工具的时候要用到这些参数&＃xff0c;所以要能理解并运用这些参数。

3. 使用Postman加速爬虫分析过程

Postman的下载地址是https://www.postman.com/downloads/&＃xff0c;它提供了post/get等方法访问/测试服务器的快捷工具&＃xff0c;并可以自动转成几十种语言的代码&＃xff0c;使用十分便利。

关于Postman如何安装和使用&＃xff0c;这里不做赘述&＃xff0c;这里仅仅把我这2天遇到的案例分析的关键点共享出来。4个关键点&＃xff0c;

a. URL 的填写(下图步骤1)&＃xff1a;请填写Chrome浏览器中XHR->Headers->General->Request URL的内容&＃xff1b;

b. Request的方法(下图步骤2): 请选择Chrome浏览器中XHR->Headers->General->Request Method的内容&＃xff1b;

c. Content-Type(下图步骤3)&＃xff1a;Postman会根据在“Body”页面的选择&＃xff0c;自动选择类型&＃xff1b;请将这项和Chrome浏览器中XHR->Headers->Request Headers->Content-Type保持一致。这一步十分关键&＃xff0c;否则server端会抛出405异常&＃xff1b;下图步骤4/5/6是在Postman中选择正确的Content-Type&＃xff0c;十分关键。

d. 按照要求填入body数据&＃xff08;下图步骤7&＃xff09;&＃xff1a;数据来源于Chrome浏览器中XHR->Headers->Request Payload&＃xff0c;格式要对。

填写好之后&＃xff0c;点击“Send”, 如果成功&＃xff0c;则会在Status中显示“200 OK”&＃xff1b;如果错误&＃xff0c;还要再分析。

最后&＃xff0c;再讲一下Postman不可思议的代码转换功能。

Postman不仅可以测试Post等方法&＃xff0c;还可以直接转换为数十种编程语言&＃xff0c;十分便捷。直接上图如下&＃xff0c;点击红圈内的“Code”&＃xff0c;即可跳出各种编程语言的页面&＃xff0c;按照自己的需要选择语言&＃xff0c;比如我选择了“Python - Requests”.

Good Luck!

另外&＃xff0c;如果爬虫https的链接&＃xff0c;需要disable SSL&＃xff0c;postman的设置如下&＃xff0c;

推荐阅读

cookie
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
version
解决 Ubuntu 下 Samba 重新安装时配置文件未重新生成的问题

在 Ubuntu 中遇到 Samba 服务器故障时，尝试卸载并重新安装 Samba 发现配置文件未重新生成。本文介绍了解决该问题的方法。 ... [详细]

蜡笔小新 2024-11-12 13:02:23
ip
利用爬虫技术抓取数据，结合Fiddler与Postman在Chrome中的应用优化提交流程

本文探讨了如何利用爬虫技术抓取目标网站的数据，并结合Fiddler和Postman工具在Chrome浏览器中的应用，优化数据提交流程。通过详细的抓包分析和模拟提交，有效提升了数据抓取的效率和准确性。此外，文章还介绍了如何使用这些工具进行调试和优化，为开发者提供了实用的操作指南。 ... [详细]

蜡笔小新 2024-11-09 09:05:16
ip
在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解

在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解 ... [详细]

蜡笔小新 2024-11-11 17:28:29
cookie
DVWA学习笔记系列：深入理解CSRF攻击机制

DVWA学习笔记系列：深入理解CSRF攻击机制 ... [详细]

蜡笔小新 2024-11-11 13:19:51
tags
利用Struts1构建简易计算器：采用DispatchAction处理请求，动态Form优化开发流程，提供用户友好的错误提示

本文介绍了如何利用Struts1框架构建一个简易的四则运算计算器。通过采用DispatchAction来处理不同类型的计算请求，并使用动态Form来优化开发流程，确保代码的简洁性和可维护性。同时，系统提供了用户友好的错误提示，以增强用户体验。 ... [详细]

蜡笔小新 2024-11-09 19:48:22
version
php更新数据库字段的函数是,php更新数据库字段的函数是

php更新数据库字段的函数是,php更新数据库字段的函数是 ... [详细]

蜡笔小新 2024-11-12 11:37:31
ip
如何拆解联想C4030一体机并安装额外内存条？

收到一台朋友赠送的联想C4030一体机，这是一款面向家庭用户的入门级设备。其配置包括Intel i3处理器、4GB内存和500GB硬盘，整体性能较为有限。尽管如此，该机配备了一块1920x1080分辨率的高清IPS屏幕，显示效果尚可。为了提升性能，计划拆解机器并加装额外的内存条。 ... [详细]

蜡笔小新 2024-11-11 17:35:21
spring
深入解析Struts、Spring与Hibernate三大框架的面试要点与技巧

深入解析Struts、Spring与Hibernate三大框架的面试要点与技巧 ... [详细]

蜡笔小新 2024-11-11 13:09:30
spring
深入解析几种常用的Java后端开发框架组合及其应用场景

本文详细探讨了几种常用的Java后端开发框架组合及其具体应用场景。通过对比分析Spring Boot、MyBatis、Hibernate等框架的特点和优势，结合实际项目需求，为开发者提供了选择合适框架组合的参考依据。同时，文章还介绍了这些框架在微服务架构中的应用，帮助读者更好地理解和运用这些技术。 ... [详细]

蜡笔小新 2024-11-11 10:12:51
spring
使用JDBC实现ActiveMQ消息持久化机制深入解析

本文深入解析了通过JDBC实现ActiveMQ消息持久化的机制。JDBC能够将消息可靠地存储在多种关系型数据库中，如MySQL、SQL Server、Oracle和DB2等。采用JDBC持久化方式时，数据库会自动生成三个关键表：`activemq_msgs`、`activemq_lock`和`activemq_ACKS`，分别用于存储消息数据、锁定信息和确认状态。这种机制不仅提高了消息的可靠性，还增强了系统的可扩展性和容错能力。 ... [详细]

蜡笔小新 2024-11-10 14:41:02
ip
服务器部署中的安全策略实践与优化

服务器部署中的安全策略实践与优化 ... [详细]

蜡笔小新 2024-11-10 13:04:30
uri
如何通过登录PHP网站实现校园内外差异化访问：内部免费而外部需付费

该大学网站采用PHP和MySQL技术，在校内可免费访问某些外部收费资料数据库。为了方便学生校外访问，建议通过学校账号登录实现免费访问。具体方案可包括利用学校服务器作为代理，结合身份验证机制，确保合法用户在校外也能享受免费资源。 ... [详细]

蜡笔小新 2024-11-10 03:11:33
数组
深入探索HTTP协议的学习与实践

在初次访问某个网站时，由于本地没有缓存，服务器会返回一个200状态码的响应，并在响应头中设置Etag和Last-Modified等缓存控制字段。这些字段用于后续请求时验证资源是否已更新，从而提高页面加载速度和减少带宽消耗。本文将深入探讨HTTP缓存机制及其在实际应用中的优化策略，帮助读者更好地理解和运用HTTP协议。 ... [详细]

蜡笔小新 2024-11-09 10:12:07
utf-8
网页数据抓取与解析入门指南

本指南介绍了 `requests` 库的基本使用方法，详细解释了其七个主要函数。其中，`requests.request()` 是构建请求的基础方法，支持其他高级功能的实现。此外，我们还重点介绍了如何使用 `requests.get()` 方法来获取 HTML 网页内容，这是进行网页数据抓取和解析的重要步骤。通过这些基础方法，读者可以轻松上手并掌握网页数据抓取的核心技巧。 ... [详细]

蜡笔小新 2024-11-08 17:56:30

空荡荡跑龙套

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章