Scrapy学习笔记（二）

作者： | 来源：互联网 | 2023-10-13 12:55

scrapy一、scrapy框架-Twisted使用1、知道reactor、getPage、defer作用：fromtwisted.internetimportrea

scrapy

一、scrapy框架 - Twisted使用

1、知道 reactor 、getPage、defer 作用&＃xff1a;

from twisted.internet import reactor # 事件循环&＃xff08;终止条件&＃xff1a;所有的socket都已经移除&＃xff09;
from twisted.web.client import getPage # socket对象&＃xff08;如果下载完成&＃xff0c;自动从时间循环中移除...&＃xff09;
from twisted.internet import defer # defer.Deferred 特殊的socket对象 &＃xff08;不会发请求&＃xff0c;手动移除&＃xff09;

2、利用twisted实现并发&＃xff0c;步骤&＃xff1a;

利用getPage创建socket
将socket添加到事件循环中
开始事件循环 &＃xff08;内部发送请求&＃xff0c;并接受响应&＃xff1b;当所有的socekt请求完成后&＃xff0c;终止事件循环&＃xff09;
终止事件循环

1、利用getPage创建socket&＃xff1a;

def response(content):print(content)def task(): # 创建任务url &＃61; "http://www.baidu.com"d &＃61; getPage(url.encode("utf-8")) # 创建socket对象&＃xff0c;有返回值&＃xff0c;为defer.Deferred对象d.addCallback(response) #请求完成/下载完成时执行callback函数

2、此时&＃xff0c;只是创建了socket&＃xff0c;以及构造了回调函数&＃xff0c;还没将socket添加到事件循环中去&＃xff0c;做如下两步&＃xff0c;完成将socket添加到事件循环中去&＃xff1a;

task函数加上装饰器&＃xff1a;&＃64;defer.inlineCallbacks
task 函数中添加yield语句&＃xff1a;yield d

3、开始事件循环&＃xff1a;

def response(content):print(content)&＃64;defer.inlineCallbacks
def task(): # 创建任务url &＃61; "http://www.baidu.com"d &＃61; getPage(url.encode("utf-8")) # 创建socket对象&＃xff0c;有返回值&＃xff0c;为defer.Deferred对象d.addCallback(response) #请求完成/下载完成时执行callback函数yield d #task()时&＃xff0c;直到执行到此行才将socket添加到事件循环中去task() # 必须实例化&＃xff0c;不然task函数不执行
reactor.run() #开始事件循环

此时&＃xff0c;运行该文件就开始了事件循环&＃xff0c;该注意的是&＃xff1a;现在的情况&＃xff0c;事件循环开始后不手动结束&＃xff0c;它是会一直循环的

4&＃xff09;终止事件循环&＃xff1a;

def response(content):print(content)
&＃64;defer.inlineCallbacks
def task():url &＃61; "http://www.baidu.com"d &＃61; getPage(url.encode(&＃39;utf-8&＃39;))d.addCallback(response)yield d def done(*args,**kwargs): # 终止循环
reactor.stop()d &＃61; task() # task中yield返回的 d 类型
dd &＃61; defer.DeferredList([d,]) # 将d添加到DeferredList中&＃xff0c;监听d请求是否完成或失败
dd.addBoth(done) # 当dd列表中所有请求都完成或者失败时&＃xff0c;会执行此函数&＃xff0c;同时调用回调函数done&＃xff0c;我们在done来终止函数

reactor.run()

#########################
# 1.利用getPage创建socket
# 2.将socket添加到事件循环中
# 3.开始事件循环&＃xff08;自动结束&＃xff09;
#########################
def response(content):print(content)&＃64;defer.inlineCallbacks
def task():url &＃61; "http://www.baidu.com"d &＃61; getPage(url.encode(&＃39;utf-8&＃39;))d.addCallback(response)yield durl &＃61; "http://www.baidu.com"d &＃61; getPage(url.encode(&＃39;utf-8&＃39;))d.addCallback(response)yield ddef done(*args,**kwargs):reactor.stop()li &＃61; []
for i in range(5):d &＃61; task()li.append(d)
dd &＃61; defer.DeferredList(li)
dd.addBoth(done)reactor.run()

demo

以上算是实现了爬虫twisted的基本使用&＃xff0c;我们模拟twisted源码本质进行进一步修改&＃xff0c;让程序更安全运行。

上面说过 defer.Deferred 是特殊的socket对象&＃xff0c;不会自动移除&＃xff0c;我们在task函数中使用它&＃xff0c;将task函数中&＃xff1a;

　yield d → 替换成 &＃xff1a;yield defer.Deferred # d是socket对象 &＃xff0c;defer.Deferred也是socket对象&＃xff0c;

这样task函数执行后便会一直循环不停止&＃xff0c;就算其他socket已经完成数据爬取&＃xff0c;但defer.Deferred不发请求也不会自动移除&＃xff0c;因为程序不会终止&＃xff0c;

我们取巧&＃xff0c;在爬虫爬取数据成功时调用的回调函数里判断返回的爬虫数&＃xff0c;当所有爬虫数都返回时&＃xff0c;证明已经完成数据爬取了&＃xff0c;此时我们可以手动移除defer对象&＃xff0c;这样 defer.DeferredList 中监听的socket列表便空了&＃xff0c;

也就会执行addBoth的回调函数了&＃xff08;我们在addBoth的回调函数中让事件循环终止&＃xff1a;reactor.stop()&＃xff09;。这样的机制是数据爬取更加安全。

具体代码实现如下&＃xff1a;

_close &＃61; None
count &＃61; 0
def response(content):print(content)global countcount &＃43;&＃61; 1if count &＃61;&＃61; 3:_close.callback(None) # 当所有爬虫完成时&＃xff0c;手动移除defer.Deferred对象

&＃64;defer.inlineCallbacks
def task():"""每个爬虫的开始&＃xff1a;stats_request:return:"""url &＃61; "http://www.baidu.com"d1 &＃61; getPage(url.encode(&＃39;utf-8&＃39;))d1.addCallback(response)url &＃61; "http://www.cnblogs.com"d2 &＃61; getPage(url.encode(&＃39;utf-8&＃39;))d2.addCallback(response)url &＃61; "http://www.bing.com"d3 &＃61; getPage(url.encode(&＃39;utf-8&＃39;))d3.addCallback(response)global _close_close &＃61; defer.Deferred()yield _close # yield defer.Deferred &＃xff0c;使事件循环卡在这&＃xff0c;不停止&＃xff0c;defer.Deferred.callback(None)&＃xff1a;手动移除def done(*args,**kwargs):reactor.stop()# 每一个爬虫
spider1 &＃61; task()
dd &＃61; defer.DeferredList([spider1])
dd.addBoth(done)reactor.run()

from twisted.internet import reactor # 事件循环&＃xff08;终止条件&＃xff0c;所有的socket都已经移除&＃xff09;
from twisted.web.client import getPage # socket对象&＃xff08;如果下载完成&＃xff0c;自动从时间循环中移除...&＃xff09;
from twisted.internet import defer # defer.Deferred 特殊的socket对象 &＃xff08;不会发请求&＃xff0c;手动移除&＃xff09;class Request(object):def __init__(self,url,callback):self.url &＃61; urlself.callback &＃61; callback
class HttpResponse(object):def __init__(self,content,request):self.content &＃61; contentself.request &＃61; requestself.url &＃61; request.urlself.text &＃61; str(content,encoding&＃61;&＃39;utf-8&＃39;)class ChoutiSpider(object):name &＃61; &＃39;chouti&＃39;def start_requests(self):start_url &＃61; [&＃39;http://www.baidu.com&＃39;,&＃39;http://www.bing.com&＃39;,]for url in start_url:yield Request(url,self.parse)def parse(self,response):print(response) #response是下载的页面yield Request(&＃39;http://www.cnblogs.com&＃39;,callback&＃61;self.parse)import queue
Q &＃61; queue.Queue()class Engine(object):def __init__(self):self._close &＃61; Noneself.max &＃61; 5self.crawlling &＃61; []def get_response_callback(self,content,request):self.crawlling.remove(request)rep &＃61; HttpResponse(content,request)result &＃61; request.callback(rep)import typesif isinstance(result,types.GeneratorType):for req in result:Q.put(req)def _next_request(self):"""去取request对象&＃xff0c;并发送请求最大并发数限制:return:"""print(self.crawlling,Q.qsize())if Q.qsize() &＃61;&＃61; 0 and len(self.crawlling) &＃61;&＃61; 0:self._close.callback(None)returnif len(self.crawlling) >&＃61; self.max:returnwhile len(self.crawlling) < self.max:try:req &＃61; Q.get(block&＃61;False) #有数据则取&＃xff0c;没数据不等待数据会报错
self.crawlling.append(req)d &＃61; getPage(req.url.encode(&＃39;utf-8&＃39;)) # 生成socket对象# 页面下载完成&＃xff0c;get_response_callback&＃xff0c;调用用户spider中定义的parse方法&＃xff0c;并且将新请求添加到调度器
d.addCallback(self.get_response_callback,req)# 未达到最大并发数&＃xff0c;可以再去调度器中获取Requestd.addCallback(lambda _:reactor.callLater(0, self._next_request))except Exception as e:print(e)return&＃64;defer.inlineCallbacksdef crawl(self,spider):# 将初始Request对象添加到调度器start_requests &＃61; iter(spider.start_requests())while True:try:request &＃61; next(start_requests)Q.put(request)except StopIteration as e:break# 去调度器中取request&＃xff0c;并发送请求# self._next_request()
reactor.callLater(0, self._next_request)self._close &＃61; defer.Deferred()yield self._closespider &＃61; ChoutiSpider()_active &＃61; set()
engine &＃61; Engine()
d &＃61; engine.crawl(spider)
_active.add(d)dd &＃61; defer.DeferredList(_active)
dd.addBoth(lambda a:reactor.stop())reactor.run()

low_scrapy框架

from twisted.internet import reactor # 事件循环&＃xff08;终止条件&＃xff0c;所有的socket都已经移除&＃xff09;
from twisted.web.client import getPage # socket对象&＃xff08;如果下载完成&＃xff0c;自动从时间循环中移除...&＃xff09;
from twisted.internet import defer # defer.Deferred 特殊的socket对象 &＃xff08;不会发请求&＃xff0c;手动移除&＃xff09;
from queue import Queueclass Request(object):"""用于封装用户请求相关信息"""def __init__(self,url,callback):self.url &＃61; urlself.callback &＃61; callbackclass HttpResponse(object):def __init__(self,content,request):self.content &＃61; contentself.request &＃61; requestclass Scheduler(object):"""任务调度器"""def __init__(self):self.q &＃61; Queue()def open(self):passdef next_request(self):try:req &＃61; self.q.get(block&＃61;False)except Exception as e:req &＃61; Nonereturn reqdef enqueue_request(self,req):self.q.put(req)def size(self):return self.q.qsize()class ExecutionEngine(object):"""引擎&＃xff1a;所有调度"""def __init__(self):self._close &＃61; Noneself.scheduler &＃61; Noneself.max &＃61; 5self.crawlling &＃61; []def get_response_callback(self,content,request):self.crawlling.remove(request)response &＃61; HttpResponse(content,request)result &＃61; request.callback(response)import typesif isinstance(result,types.GeneratorType):for req in result:self.scheduler.enqueue_request(req)def _next_request(self):if self.scheduler.size() &＃61;&＃61; 0 and len(self.crawlling) &＃61;&＃61; 0:self._close.callback(None)returnwhile len(self.crawlling) < self.max:req &＃61; self.scheduler.next_request()if not req:returnself.crawlling.append(req)d &＃61; getPage(req.url.encode(&＃39;utf-8&＃39;))d.addCallback(self.get_response_callback,req)d.addCallback(lambda _:reactor.callLater(0,self._next_request))&＃64;defer.inlineCallbacksdef open_spider(self,start_requests):self.scheduler &＃61; Scheduler()yield self.scheduler.open()while True:try:req &＃61; next(start_requests)except StopIteration as e:breakself.scheduler.enqueue_request(req)reactor.callLater(0,self._next_request)&＃64;defer.inlineCallbacksdef start(self):self._close &＃61; defer.Deferred()yield self._closeclass Crawler(object):"""用户封装调度器以及引擎的..."""def _create_engine(self):return ExecutionEngine()def _create_spider(self,spider_cls_path):""":param spider_cls_path: spider.chouti.ChoutiSpider:return:"""module_path,cls_name &＃61; spider_cls_path.rsplit(&＃39;.&＃39;,maxsplit&＃61;1)import importlibm &＃61; importlib.import_module(module_path)cls &＃61; getattr(m,cls_name)return cls()&＃64;defer.inlineCallbacksdef crawl(self,spider_cls_path):engine &＃61; self._create_engine()spider &＃61; self._create_spider(spider_cls_path)start_requests &＃61; iter(spider.start_requests())yield engine.open_spider(start_requests)yield engine.start()class CrawlerProcess(object):"""开启事件循环"""def __init__(self):self._active &＃61; set()def crawl(self,spider_cls_path):""":param spider_cls_path::return:"""crawler &＃61; Crawler()d &＃61; crawler.crawl(spider_cls_path)self._active.add(d)def start(self):dd &＃61; defer.DeferredList(self._active)dd.addBoth(lambda _:reactor.stop())reactor.run()class Commond(object):def run(self):crawl_process &＃61; CrawlerProcess()spider_cls_path_list &＃61; [&＃39;spider.chouti.ChoutiSpider&＃39;,&＃39;spider.cnblogs.CnblogsSpider&＃39;,]for spider_cls_path in spider_cls_path_list:crawl_process.crawl(spider_cls_path)crawl_process.start()if __name__ &＃61;&＃61; &＃39;__main__&＃39;:cmd &＃61; Commond()cmd.run()

TinyScrapy框架

转:https://www.cnblogs.com/Eric15/articles/9733941.html

推荐阅读

range
数据库内核开发入门 | 搭建研发环境的初步指南

本课程将带你从零开始，逐步掌握数据库内核开发的基础知识和实践技能，重点介绍如何搭建OceanBase的开发环境。 ... [详细]

蜡笔小新 2024-12-27 16:38:48
format
DNN Community 和 Professional 版本的主要差异

本文详细解析了 DotNetNuke (DNN) 的两种主要版本：Community 和 Professional。通过对比两者的功能和附加组件，帮助用户选择最适合其需求的版本。 ... [详细]

蜡笔小新 2024-12-27 13:14:08
config
深入解析 Apache Shiro 安全框架架构

本文详细介绍了 Apache Shiro，一个强大且灵活的开源安全框架。Shiro 专注于简化身份验证、授权、会话管理和加密等复杂的安全操作，使开发者能够更轻松地保护应用程序。其核心目标是提供易于使用和理解的API，同时确保高度的安全性和灵活性。 ... [详细]

蜡笔小新 2024-12-25 16:03:57
range
深入理解Redis的数据结构与对象系统

本文详细探讨了Redis中的数据结构和对象系统的实现，包括字符串、列表、集合、哈希表和有序集合等五种核心对象类型，以及它们所使用的底层数据结构。通过分析源码和相关文献，帮助读者更好地理解Redis的设计原理。 ... [详细]

蜡笔小新 2024-12-25 04:11:22
range
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09
merge
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
merge
2023年京东Android面试真题解析与经验分享

本文由一位拥有6年Android开发经验的工程师撰写，详细解析了京东面试中常见的技术问题。涵盖引用传递、Handler机制、ListView优化、多线程控制及ANR处理等核心知识点。 ... [详细]

蜡笔小新 2024-12-26 17:45:48
format
ASP.NET MVC中Area机制的实现与优化

本文探讨了在ASP.NET MVC框架中，如何通过Area机制有效地组织和管理大规模应用程序的不同功能模块。通过合理的文件夹结构和命名规则，开发人员可以更高效地管理和扩展项目。 ... [详细]

蜡笔小新 2024-12-25 22:53:48
bash
基于KVM的SRIOV直通配置及性能测试

SRIOV介绍、VF直通配置，以及包转发率性能测试小慢哥的原创文章，欢迎转载目录?1.SRIOV介绍?2.环境说明?3.开启SRIOV?4.生成VF?5.VF ... [详细]

蜡笔小新 2024-12-25 19:26:39
spring
深入理解领域驱动设计及其实践

本文探讨了领域驱动设计（DDD）的核心概念、应用场景及其实现方式，详细介绍了其在企业级软件开发中的优势和挑战。通过对比事务脚本与领域模型，展示了DDD如何提升系统的可维护性和扩展性。 ... [详细]

蜡笔小新 2024-12-25 18:45:55
config
Spring Boot 服务的最大并发处理能力

本文探讨了 Spring Boot 应用程序在不同配置下支持的最大并发连接数，重点分析了内置服务器（如 Tomcat、Jetty 和 Undertow）的默认设置及其对性能的影响。 ... [详细]

蜡笔小新 2024-12-25 16:45:57
config
Java多线程并发控制：解决相同key的线程互斥问题

本文探讨了在Java多线程环境下，如何确保具有相同key值的线程能够互斥执行并按顺序输出结果。通过优化代码结构和使用线程安全的数据结构，我们解决了线程同步问题，并实现了预期的并发行为。 ... [详细]

蜡笔小新 2024-12-25 14:15:29
spring
技术变现之道：从日常工作中挖掘潜力

本文探讨了如何在日常工作中通过优化效率和深入研究核心技术，将技术和知识转化为实际收益。文章结合个人经验，分享了提高工作效率、掌握高价值技能以及选择合适工作环境的方法，帮助读者更好地实现技术变现。 ... [详细]

蜡笔小新 2024-12-24 15:21:23
spring
FinOps 与 Serverless 的结合：破解云成本难题

本文探讨了如何通过 FinOps 实践优化 Serverless 应用的成本管理，提出了首个 Serverless 函数总成本估计模型，并分享了多种有效的成本优化策略。 ... [详细]

蜡笔小新 2024-12-24 12:44:26
js
理解反向投影技术及其应用

反向投影技术主要用于在大型输入图像中定位特定的小型模板图像。通过直方图对比，它能够识别出最匹配的区域或点，从而确定模板图像在输入图像中的位置。 ... [详细]

蜡笔小新 2024-12-23 12:24:22

Tags | 热门标签

RankList | 热门文章