node爬虫框架_来来来！带你了解Python爬虫的方方面面！

作者：手机用户2602890925 | 来源：互联网 | 2023-08-10 13:39

原理传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足

原理

传统爬虫从一个或若干初始网页的URL开始&＃xff0c;获得初始网页上的URL&＃xff0c;在抓取网页的过程中&＃xff0c;不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂&＃xff0c;需要根据一定的网页分析算法过滤与主题无关的链接&＃xff0c;保留有用的链接并将其放入等待抓取的URL队列。

Python学习关注&＃xff0c;每天免费直播课程学习群&＃xff1a;839383 765 分享业内最新python学习资料哦&＃xff01;

然后&＃xff0c;它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL&＃xff0c;并重复上述过程&＃xff0c;直到达到系统的某一条件时停止。另外&＃xff0c;所有被爬虫抓取的网页将会被系统存贮&＃xff0c;进行一定的分析、过滤&＃xff0c;并建立索引&＃xff0c;以便之后的查询和检索&＃xff1b;

所以一个完整的爬虫一般会包含如下三个模块&＃xff1a;

网络请求模块
爬取流程控制模块
内容分析提取模块

网络请求

我们常说爬虫其实就是一堆的http(s)请求&＃xff0c;找到待爬取的链接&＃xff0c;然后发送一个请求包&＃xff0c;得到一个返回包&＃xff0c;当然&＃xff0c;也有HTTP长连接(keep-alive)或h5中基于stream的websocket协议&＃xff0c;这里暂不考虑&＃xff1b;

所以核心的几个要素就是&＃xff1a;

url
请求header、body
响应herder、内容

URL

爬虫开始运行时需要一个初始url&＃xff0c;然后会根据爬取到的html文章&＃xff0c;解析里面的链接&＃xff0c;然后继续爬取&＃xff0c;这就像一棵多叉树&＃xff0c;从根节点开始&＃xff0c;每走一步&＃xff0c;就会产生新的节点。为了使爬虫能够结束&＃xff0c;一般都会指定一个爬取深度(Depth)。

Http请求

http请求信息由请求方法(method)、请求头(headers)、请求正文(body)三部分组成。由于method一般是header中的第一行&＃xff0c;也可以说请求头中包含请求方法&＃xff0c;下面是chrome访问请求头的一部分&＃xff1a;

对于爬虫需要注意的是请求方法是post时&＃xff0c;需要将请求的参数先进行urlencode后再发送&＃xff0c;后台收到请求信息后可能会做一些校验&＃xff0c;这可能会影响到爬取&＃xff0c;相关的header字段如下&＃xff1a;

Basic Auth

这是一种古老的、不安全的用户验证方式&＃xff0c;一般会有用户授权的限制&＃xff0c;会在headers的Autheration字段里要求加入用户名密码(明文)&＃xff0c;如果验证失败则请求就会失败&＃xff0c;现在这种认证方式正在被淘汰。

Referer

链接的来源&＃xff0c;通常在访问链接时&＃xff0c;都要带上Referer字段&＃xff0c;服务器会进行来源验证&＃xff0c;后台通常会用此字段作为防盗链的依据。

User-Agent

后台通常会通过此字段判断用户设备类型、系统以及浏览器的型号版本。有些编程语言包里网络请求会自定义User-Agent&＃xff0c;可以被辨别出来&＃xff0c;爬虫中可以设置为浏览器的ua.

COOKIE

一般在用户登录或者某些操作后&＃xff0c;服务端会在返回包中包含COOKIE信息要求浏览器设置COOKIE&＃xff0c;没有COOKIE会很容易被辨别出来是伪造请求&＃xff1b;

也有本地通过JS&＃xff0c;根据服务端返回的某个信息进行处理生成的加密信息&＃xff0c;设置在COOKIE里面&＃xff1b;

Javascript加密操作

在进行敏感数据传输时&＃xff0c;一般都会通过Javascript进行加密&＃xff0c;例如qq空间就会对用户登陆密码进行RSA加密后再发送给服务器&＃xff0c;因此&＃xff0c;爬虫在模拟登陆时需要自己去请求公钥&＃xff0c;然后加密。

自定义字段
因为http的headers可以自定义地段&＃xff0c;所以第三方可能会加入了一些自定义的字段名称或者字段值&＃xff0c;这也是需要注意的。

流程控制

所谓爬取流程&＃xff0c;就是按照什么样的规则顺序去爬。在爬取任务不大的情况下&＃xff0c;爬取的流程控制不会太麻烦&＃xff0c;很多爬取框架都已经帮你做了如scrapy&＃xff0c;只需要自己实现解析的代码。

但在爬取一些大型网站时&＃xff0c;例如全网抓取京东的评论&＃xff0c;微博所有人的信息&＃xff0c;关注关系等等&＃xff0c;这种上十亿到百亿次设置千亿次的请求必须考虑效率&＃xff0c;否则一天只有86400秒&＃xff0c;那么一秒钟要抓100次&＃xff0c;一天也才8640w次请求&＃xff0c;也需要100多天才能到达十亿级别的请求量。

涉及到大规模的抓取&＃xff0c;一定要有良好的爬虫设计&＃xff0c;一般很多开源的爬虫框架也都是有限制的&＃xff0c;因为中间涉及到很多其他的问题&＃xff0c;例如数据结构&＃xff0c;重复抓取过滤的问题&＃xff0c;当然最重要的是要把带宽利用满。

所以分布式抓取很重要&＃xff0c;这时流程控制就会很重要&＃xff0c;分布式最重要的就是多台机器不同线程的调度和配合&＃xff0c;通常会共享一个url队列&＃xff0c;然后各个线程通过消息通信&＃xff0c;如果想要抓的越多越快&＃xff0c;那么对中间的消息系统的吞吐量要求也越高。

现在也有一些开源的分布式爬取框架如scrapy-redis就是一个重写了scrapy的调度模块、队列、管道的包&＃xff0c;redis数据库是用来在分布式中做请求队列共享&＃xff0c;scrapyd是用来部署scrapy的,scrapyd-api用来启动获取数据。

内容分析提取

请求headers的Accept-Encoding字段表示浏览器告诉服务器自己支持的压缩算法(目前最多的是gzip)&＃xff0c;如果服务器开启了压缩&＃xff0c;返回时会对响应体进行压缩&＃xff0c;爬虫需要自己解压&＃xff1b;

过去我们常需要获取的内容主要来源于网页html文档本身&＃xff0c;也就是说&＃xff0c;我们决定进行抓取的时候&＃xff0c;都是html中包含的内容&＃xff0c;但是随着这几年web技术飞速的发展&＃xff0c;动态网页越来越多&＃xff0c;尤其是移动端&＃xff0c;大量的SPA应用&＃xff0c;这些网站中大量的使用了ajax技术。

我们在浏览器中看到的网页已不全是html文档说包含的&＃xff0c;很多都是通过Javascript动态生成的&＃xff0c;一般来说&＃xff0c;我们最终眼里看到的网页包括以下三种&＃xff1a;

Html文档本身包含内容

这种情况是最容易解决的&＃xff0c;一般来讲基本上是静态网页已经写死的内容&＃xff0c;或者动态网页&＃xff0c;采用模板渲染&＃xff0c;浏览器获取到HTML的时候已经是包含所有的关键信息&＃xff0c;所以直接在网页上看到的内容都可以通过特定的HTML标签得到。

这种情况解析也是很简单的&＃xff0c;一般的方法有一下几种&＃xff1a;

CSS选择器
XPATH(这个值得学习一下)
正则表达式或普通字符串查找
Javascript代码加载内容

一般来说有两种情况&＃xff1a;一种情况是在请求到html文档时&＃xff0c;网页的数据在js代码中&＃xff0c;而并非在html标签中&＃xff0c;之所以我们看到的网页是正常的&＃xff0c;那是因为&＃xff0c;其实是由于执行js代码动态添加到标签里面的。

所以这个时候内容在js代码里面的&＃xff0c;而js的执行是在浏览器端的操作&＃xff0c;所以用程序去请求网页地址的时候&＃xff0c;得到的response是网页代码和js的代码&＃xff0c;所以自己在浏览器端能看到内容&＃xff0c;解析时由于js未执行&＃xff0c;肯定找到指定HTML标签下内容肯定为空&＃xff0c;如百度的主页就是这种&＃xff0c;这个时候的处理办法&＃xff0c;一般来讲主要是要找到包含内容的js代码串&＃xff0c;然后通过正则表达式获得相应的内容&＃xff0c;而不是解析HTML标签。

另一种情况是在和用户交互时&＃xff0c;Javascript可能会动态生成一些dom&＃xff0c;如点击某个按钮弹了一个对话框等&＃xff1b;对于这种情况&＃xff0c;一般这些内容都是一些用户提示相关的内容&＃xff0c;没什么价值&＃xff0c;如果确实需要&＃xff0c;可以分析一下js执行逻辑&＃xff0c;但这样的情况很少。

Ajax&＃xff0f;Fetch异步请求

这种情况是现在很常见的&＃xff0c;尤其是在内容以分页形式显示在网页上&＃xff0c;并且页面无刷新&＃xff0c;或者是对网页进行某个交互操作后&＃xff0c;得到内容。对于这种页面&＃xff0c;分析的时候我们要跟踪所有的请求&＃xff0c;观察数据到底是在哪一步加载进来的。然后当我们找到核心的异步请求的时候&＃xff0c;就只需抓取这个异步请求就可以了&＃xff0c;如果原始网页没有任何有用信息&＃xff0c;也没必要去抓取原始网页了。

爬虫技术的现状

语言

理论上来说&＃xff0c;任何支持网络通信的语言都是可以写爬虫的&＃xff0c;爬虫本身虽然语言关系不大&＃xff0c;但是&＃xff0c;总有相对顺手、简单的。目前来说&＃xff0c;大多数爬虫是用后台脚本类语言写的&＃xff0c;其中python无疑是用的最多最广的&＃xff0c;并且页诞生了很多优秀的库和框架&＃xff0c;如scrapy、BeautifulSoup 、pyquery、Mechanize等。

但是一般来说&＃xff0c;搜索引擎的爬虫对爬虫的效率要求更高&＃xff0c;会选用c&＃43;&＃43;、java、go(适合高并发)&＃xff0c;我在大学时代就用c&＃43;&＃43;实现了一个多线程的框架&＃xff0c;但是发现和python实现的爬虫效率提升并不明显&＃xff0c;原因是&＃xff0c;对于简单爬虫&＃xff0c;瓶颈在于数据分析及提取&＃xff0c;而网络效率和语言关系并不大。

值得一提的是&＃xff0c;在近几年node发展非常快&＃xff0c; 使得Javascript遍地开花&＃xff0c;有些人也开始尝试用node做爬虫&＃xff0c;但是&＃xff0c;这其实和其它后台脚本语言没什么区别&＃xff0c;也不如 python简单&＃xff0c; 因为你依旧不能在node 里发起ajax请求&＃xff0c;不能执行原网页的dom。

因为node的Javascript 执行环境和浏览器的执行环境并不相同。那么&＃xff0c;难道就真的不能像在浏览器中一样用js写爬虫&＃xff0c;用jquery提取内容吗&＃xff1f;

运行环境

爬虫本身不区分到底是运行在windows还是Linux&＃xff0c;又或是OSX&＃xff0c;但从业务角度讲&＃xff0c;我们把运行在服务端(后台)的&＃xff0c;称之为后台爬虫。而现在&＃xff0c;几乎所有的爬虫都是后台爬虫。

后台爬虫的三大问题

后台爬虫在大行其道的时候&＃xff0c;也有着些许棘手的、到目前也没有什么好的解决方案问题&＃xff0c;而归根结底&＃xff0c;这些问题的根本原因是由于后台爬虫的先天不足导致&＃xff0c;在正式讨论之前&＃xff0c;我们先思考一个问题&＃xff0c;“爬虫和浏览器有什么异同&＃xff1f;”。

相同点

本质上都是通过http/https协议请求互联网数据

不同点

爬虫一般为自动化程序&＃xff0c;无需用用户交互&＃xff0c;而浏览器不是
运行场景不同&＃xff1b;浏览器运行在客户端&＃xff0c;而爬虫一般都跑在服务端
能力不同&＃xff1b;浏览器包含渲染引擎、Javascript虚拟机&＃xff0c;而爬虫一般都不具备这两者。

了解了这些&＃xff0c;我们再来看看后台面临的问题

问题一&＃xff1a;交互问题

有些网页往往需要和用户进行一些交互&＃xff0c;进而才能走到下一步&＃xff0c;比如输入一个验证码&＃xff0c;拖动一个滑块&＃xff0c;选几个汉字。网站之所以这么做&＃xff0c;很多时候都是为了验证访问者到底是人还是机器。

而爬虫程序遇到这种情况很难处理&＃xff0c;传统的简单图片验证码可以通过图形处理算法读出内容&＃xff0c;但是随着各种各样&＃xff0c;花样百出&＃xff0c;人神共愤的、变态的验证码越来越多(尤其是买火车票时&＃xff0c;分分钟都想爆粗口)&＃xff0c;这个问题就越来越严重。

问题二&＃xff1a;Javascript 解析问题

如前文所述&＃xff0c;Javascript可以动态生成dom。目前大多数网页属于动态网页(内容由Javascript动态填充)&＃xff0c;尤其是在移动端&＃xff0c;SPA/PWA应用越来越流行&＃xff0c;网页中大多数有用的数据都是通过ajax/fetch动态获取后然后再由js填充到网页dom树中&＃xff0c;单纯的html静态页面中有用的数据很少。

目前主要应对的方案就是对于js ajax/fetch请求直接请求ajax/fetch的url &＃xff0c;但是还有一些ajax的请求参数会依赖一段Javascript动态生成&＃xff0c;比如一个请求签名&＃xff0c;再比如用户登陆时对密码的加密等等。

如果一昧的去用后台脚本去干Javascript本来做的事&＃xff0c;这就要清楚的理解原网页代码逻辑&＃xff0c;而这不仅非常麻烦&＃xff0c;而且会使你的爬取代码异常庞大臃肿&＃xff0c;但是&＃xff0c;更致命的是&＃xff0c;有些Javascript可以做的事爬虫程序是很难甚至是不能模仿的&＃xff0c;比如有些网站使用拖动滑块到某个位置的验证码机制&＃xff0c;这就很难再爬虫中去模仿。

其实&＃xff0c;总结一些&＃xff0c;这些弊端归根结底&＃xff0c;是因为爬虫程序并非是浏览器&＃xff0c;没有Javascript解析引擎所致。针对这个问题&＃xff0c;目前主要的应对策略就是在爬虫中引入Javascript 引擎&＃xff0c;如PhantomJS&＃xff0c;但是又有着明显的弊端&＃xff0c;如服务器同时有多个爬取任务时&＃xff0c;资源占用太大。

还有就是&＃xff0c;这些无窗口的Javascript引擎很多时候使用起来并不能像在浏览器环境中一样&＃xff0c;页面内部发生跳转时&＃xff0c;会导致流程很难控制。

问题三&＃xff1a;IP限制

这是目前对后台爬虫中最致命的。网站的防火墙会对某个固定ip在某段时间内请求的次数做限制&＃xff0c;如果没有超过上线则正常返回数据&＃xff0c;超过了&＃xff0c;则拒绝请求&＃xff0c;如qq 邮箱。

值得说明的是&＃xff0c;ip限制有时并非是专门为了针对爬虫的&＃xff0c;而大多数时候是出于网站安全原因针对DOS攻击的防御措施。后台爬取时机器和ip有限&＃xff0c;很容易达到上线而导致请求被拒绝。目前主要的应对方案是使用代理&＃xff0c;这样一来ip的数量就会多一些&＃xff0c;但代理ip依然有限&＃xff0c;对于这个问题&＃xff0c;根本不可能彻底解决。

推荐阅读

java
Web学习历程记录（七）——Tomcat基本概念和配置

本文介绍了Web学习历程记录中关于Tomcat的基本概念和配置。首先解释了Web静态Web资源和动态Web资源的概念，以及C/S架构和B/S架构的区别。然后介绍了常见的Web服务器，包括Weblogic、WebSphere和Tomcat。接着详细讲解了Tomcat的虚拟主机、web应用和虚拟路径映射的概念和配置过程。最后简要介绍了http协议的作用。本文内容详实，适合初学者了解Tomcat的基础知识。 ... [详细]

蜡笔小新 2023-12-13 17:08:24
install
Centos7.6安装Gitlab教程及注意事项

本文介绍了在Centos7.6系统下安装Gitlab的详细教程，并提供了一些注意事项。教程包括查看系统版本、安装必要的软件包、配置防火墙等步骤。同时，还强调了使用阿里云服务器时的特殊配置需求，以及建议至少4GB的可用RAM来运行GitLab。 ... [详细]

蜡笔小新 2023-12-14 14:01:06
string
Python高级之网络编程及TCP/IP协议簇的OSI七层模型介绍

本文介绍了Python高级网络编程及TCP/IP协议簇的OSI七层模型。首先简单介绍了七层模型的各层及其封装解封装过程。然后讨论了程序开发中涉及到的网络通信内容，主要包括TCP协议、UDP协议和IPV4协议。最后还介绍了socket编程、聊天socket实现、远程执行命令、上传文件、socketserver及其源码分析等相关内容。 ... [详细]

蜡笔小新 2023-12-14 18:16:27
string
【译】发送表单数据

这是原文链接：sendingformdata许多情况下，我们使用表单发送数据到服务器。服务器处理数据并返回响应给用户。这看起来很简单，但是 ... [详细]

蜡笔小新 2023-12-14 16:19:10
string
Python连接服务器失败：使用aiohttp模拟服务器出现错误问题及解决方法

本文介绍了在使用Python中的aiohttp模块模拟服务器时出现的连接失败问题，并提供了相应的解决方法。文章中详细说明了出错的代码以及相关的软件版本和环境信息，同时也提到了相关的警告信息和函数的替代方案。通过阅读本文，读者可以了解到如何解决Python连接服务器失败的问题，并对aiohttp模块有更深入的了解。 ... [详细]

蜡笔小新 2023-12-13 12:37:59
string
Python SQLAlchemy库的使用方法详解

本文详细介绍了Python中使用SQLAlchemy库的方法。首先对SQLAlchemy进行了简介，包括其定义、适用的数据库类型等。然后讨论了SQLAlchemy提供的两种主要使用模式，即SQL表达式语言和ORM。针对不同的需求，给出了选择哪种模式的建议。最后，介绍了连接数据库的方法，包括创建SQLAlchemy引擎和执行SQL语句的接口。 ... [详细]

蜡笔小新 2023-12-12 15:23:06
stream
解决nginx启动报错epoll_wait() reported that client prematurely closed connection的方法

本文介绍了解决nginx启动报错epoll_wait() reported that client prematurely closed connection的方法，包括检查location配置是否正确、pass_proxy是否需要加“/”等。同时，还介绍了修改nginx的error.log日志级别为debug，以便查看详细日志信息。 ... [详细]

蜡笔小新 2023-12-12 13:19:04
stream
深入解析Linux下的I/O多路转接epoll技术

本文深入解析了Linux下的I/O多路转接epoll技术，介绍了select和poll函数的问题，以及epoll函数的设计和优点。同时讲解了epoll函数的使用方法，包括epoll_create和epoll_ctl两个系统调用。 ... [详细]

蜡笔小新 2023-12-10 14:18:30
string
阿里云物联网 .NET Core 客户端 | CZGL.AliIoTClient：4. 设备上报属性

阿,里,云,物,联网,net,core,客户端,czgl,aliiotclient, ... [详细]

蜡笔小新 2023-12-14 12:40:20
string
页面请求方法参数最长_关于 HTTP GET/POST 请求参数长度最大值的一个理解误区

http:my.oschina.netleejun2005blog136820刚看到群里又有同学在说HTTP协议下的Get请求参数长度是有大小限制的，最大不能超过XX ... [详细]

蜡笔小新 2023-12-13 19:20:03
java
JVM 学习总结（三）——对象存活判定算法的两种实现

本文介绍了垃圾收集器在回收堆内存前确定对象存活的两种算法：引用计数算法和可达性分析算法。引用计数算法通过计数器判定对象是否存活，虽然简单高效，但无法解决循环引用的问题；可达性分析算法通过判断对象是否可达来确定存活对象，是主流的Java虚拟机内存管理算法。 ... [详细]

蜡笔小新 2023-12-13 18:59:46
command
Webmin远程命令执行漏洞复现及防护方法

本文介绍了Webmin远程命令执行漏洞CVE-2019-15107的漏洞详情和复现方法，同时提供了防护方法。漏洞存在于Webmin的找回密码页面中，攻击者无需权限即可注入命令并执行任意系统命令。文章还提供了相关参考链接和搭建靶场的步骤。此外，还指出了参考链接中的数据包不准确的问题，并解释了漏洞触发的条件。最后，给出了防护方法以避免受到该漏洞的攻击。 ... [详细]

蜡笔小新 2023-12-13 16:14:53
import
如何从列表中删除所有零？

本文介绍了如何使用python从列表中删除所有的零，并将结果以列表形式输出，同时提供了示例格式。 ... [详细]

蜡笔小新 2023-12-13 13:02:00
java
java命令运行

Java在运行已编译完成的类时，是通过java虚拟机来装载和执行的，java虚拟机通过操作系统命令JAVA_HOMEbinjava–option来启 ... [详细]

蜡笔小新 2023-12-12 19:26:55
java
利用RxJava实现的事件总线（Event Bus）及其使用方法介绍

本文介绍了RxJava在Android开发中的广泛应用以及其在事件总线（Event Bus）实现中的使用方法。RxJava是一种基于观察者模式的异步java库，可以提高开发效率、降低维护成本。通过RxJava，开发者可以实现事件的异步处理和链式操作。对于已经具备RxJava基础的开发者来说，本文将详细介绍如何利用RxJava实现事件总线，并提供了使用建议。 ... [详细]

蜡笔小新 2023-12-11 12:16:40

手机用户2602890925

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章