scrapy中不同页面的拼接_scrapy官方文档提供的常见使用问题

作者：小果康康维五_469 | 来源：互联网 | 2023-06-28 13:53

Scrapy与BeautifulSoup或lxml相比如何？BeautifulSoup和lxml是用于解析HTML和XML的库。Scrapy是一个用于编写Web爬虫的

Scrapy与BeautifulSoup或lxml相比如何&＃xff1f;

BeautifulSoup和lxml是用于解析HTML和XML的库。Scrapy是一个用于编写Web爬虫的应用程序框架&＃xff0c;可以抓取网站并从中提取数据。

Scrapy提供了一种用于提取数据的内置机制&＃xff08;称为选择器&＃xff09;&＃xff0c;但如果您觉得使用它们感觉更舒服&＃xff0c;则可以轻松使用BeautifulSoup &＃xff08;或lxml&＃xff09;。毕竟&＃xff0c;他们只是解析可以从任何Python代码导入和使用的库。

换句话说&＃xff0c;将BeautifulSoup&＃xff08;或lxml&＃xff09;与Scrapy进行比较就像将jinja2与Django进行比较一样。

我可以和BeautifulSoup一起使用Scrapy吗&＃xff1f;

是的你可以。如所提到的上面&＃xff0c;BeautifulSoup可用于在Scrapy回调解析HTML响应。您只需将响应的主体提供给BeautifulSoup对象并从中提取所需的任何数据。

这是使用BeautifulSoup API的示例蜘蛛&＃xff0c;lxml作为HTML解析器&＃xff1a;

from bs4 import BeautifulSoup import scrapyclass ExampleSpider(scrapy.Spider):name &＃61; "example"allowed_domains &＃61; ["example.com"]start_urls &＃61; (&＃39;http://www.example.com/&＃39;,)def parse(self, response):# use lxml to get decent HTML parsing speedsoup &＃61; BeautifulSoup(response.text, &＃39;lxml&＃39;)yield {"url": response.url,"title": soup.h1.string}

注意

BeautifulSoup支持多个HTML / XML解析器。请参阅BeautifulSoup的官方文档&＃xff0c;了解哪些可用。

Scrapy支持哪些Python版本&＃xff1f;

在CPython&＃xff08;默认Python实现&＃xff09;和PyPy&＃xff08;从PyPy 5.9开始&＃xff09;下&＃xff0c;Python 2.7和Python 3.4&＃43;支持Scrapy。从Scrapy 0.20开始&＃xff0c;Python 2.6支持被删除。Scrapy 1.1中添加了Python 3支持。在Scrapy 1.4中添加了PyPy支持&＃xff0c;在Scrapy 1.5中添加了PyPy3支持。

注意

对于Windows上的Python 3支持&＃xff0c;建议按照安装指南中的说明使用Anaconda / Miniconda 。

Scrapy是否从Django“窃取”&＃xff1f;

可能&＃xff0c;但我们不喜欢这个词。我们认为Django是一个很好的开源项目&＃xff0c;也是一个值得关注的例子&＃xff0c;因此我们将它作为Scrapy的灵感来源。

我们相信&＃xff0c;如果事情已经做好&＃xff0c;就没有必要重新发明它。这个概念除了是开源和自由软件的基础之外&＃xff0c;不仅适用于软件&＃xff0c;还适用于文档&＃xff0c;程序&＃xff0c;策略等。因此&＃xff0c;我们不是自己解决每个问题&＃xff0c;而是选择从这些项目中复制想法。已经妥善解决了这些问题&＃xff0c;并专注于我们需要解决的实际问题。

如果Scrapy是其他项目的灵感&＃xff0c;我们会感到自豪。随意偷我们&＃xff01;

Scrapy是否适用于HTTP代理&＃xff1f;

是。通过HTTP代理下载器中间件提供对HTTP代理的支持&＃xff08;自Scrapy 0.8起&＃xff09;。见HttpProxyMiddleware。

如何在不同页面中抓取具有属性的项目&＃xff1f;

请参阅将其他数据传递给回调函数。

Scrapy崩溃&＃xff1a;ImportError&＃xff1a;ImportError: No module named win32api

由于这个Twisted错误&＃xff0c;你需要安装pywin32。

如何在蜘蛛中模拟用户登录&＃xff1f;

请参阅使用FormRequest.from_response&＃xff08;&＃xff09;来模拟用户登录。

Scrapy是以广度优先还是深度优先的顺序爬行&＃xff1f;

默认情况下&＃xff0c;Scrapy使用LIFO队列来存储挂起的请求&＃xff0c;这基本上意味着它以DFO顺序进行爬网。在大多数情况下&＃xff0c;此订单更方便。如果您确实想要以真正的BFO顺序进行爬网&＃xff0c;可以通过设置以下设置来执行此操作&＃xff1a;

DEPTH_PRIORITY &＃61; 1 SCHEDULER_DISK_QUEUE &＃61; &＃39;scrapy.squeues.PickleFifoDiskQueue&＃39; SCHEDULER_MEMORY_QUEUE &＃61; &＃39;scrapy.squeues.FifoMemoryQueue&＃39;

我的Scrapy爬虫有内存泄漏。我能做什么&＃xff1f;

请参阅调试内存泄漏。

此外&＃xff0c;Python有内置内存泄漏问题&＃xff0c;泄漏中描述没有泄漏。

如何让Scrapy消耗更少的内存&＃xff1f;

见上一个问题。

我可以在蜘蛛中使用基本HTTP身份验证吗&＃xff1f;

是的&＃xff0c;看HttpAuthMiddleware。

为什么Scrapy用英语而不是我的母语下载页面&＃xff1f;

尝试通过覆盖设置来更改默认的Accept-Language请求标头 DEFAULT_REQUEST_HEADERS。

我在哪里可以找到一些示例Scrapy项目&＃xff1f;

见例子。

我可以在不创建项目的情况下运行蜘蛛吗&＃xff1f;

是。您可以使用该runspider命令。例如&＃xff0c;如果您在my_spider.py文件中编写了一个蜘蛛&＃xff0c;则可以使用以下命令运行它&＃xff1a;

scrapy runspider my_spider.py

有关runspider详细信息&＃xff0c;请参阅命令

我收到“Filtered offsite request”消息。我该如何解决这些问题&＃xff1f;

这些消息&＃xff08;以DEBUG级别记录&＃xff09;并不一定意味着存在问题&＃xff0c;因此您可能不需要修复它们。

这些消息是由非现场蜘蛛中间件抛出的&＃xff0c;它是一个蜘蛛中间件&＃xff08;默认启用&＃xff09;&＃xff0c;其目的是过滤掉蜘蛛所覆盖范围之外的域的请求。

有关更多信息&＃xff0c;请参阅&＃xff1a; OffsiteMiddleware。

在生产中部署Scrapy搜寻器的推荐方法是什么&＃xff1f;

请参阅部署Spider。

我可以将JSON用于大型出口吗&＃xff1f;

这取决于你的输出有多大。请参阅此警告的JsonItemExporter 文档。

我可以从信号处理程序返回&＃xff08;扭曲&＃xff09;延迟吗&＃xff1f;

有些信号支持从处理程序返回延迟&＃xff0c;其他信号则不支持。请参阅内置信号参考以了解哪些参考。

响应状态代码999的含义是什么&＃xff1f;

999是Yahoo站点用于限制请求的自定义响应状态代码。尝试使用2蜘蛛中的下载延迟&＃xff08;或更高&＃xff09;来降低爬行速度&＃xff1a;

class MySpider(CrawlSpider):name &＃61; &＃39;myspider&＃39;download_delay &＃61; 2# [ ... rest of the spider code ... ]

或者使用设置在项目中设置全局下载延迟 DOWNLOAD_DELAY。

我可以调用`pdb.set_trace()`给我的蜘蛛进行调试吗&＃xff1f;

是的&＃xff0c;但您也可以使用Scrapy shell&＃xff0c;它允许您快速分析&＃xff08;甚至修改&＃xff09;蜘蛛处理的响应&＃xff0c;这通常比普通的更有用pdb.set_trace()。

有关更多信息&＃xff0c;请参阅从spiders调用shell以检查响应。

将所有已删除项目转储到JSON / CSV / XML文件的最简单方法是什么&＃xff1f;

要转储到JSON文件中&＃xff1a;

scrapy crawl myspider -o items.json

要转储到CSV文件&＃xff1a;

scrapy crawl myspider -o items.csv

要转储到XML文件中&＃xff1a;

scrapy crawl myspider -o items.xml

有关更多信息&＃xff0c;请参阅Feed导出

`__VIEWSTATE`在某些形式中使用的这个巨大的神秘参数是什么&＃xff1f;

该__VIEWSTATE参数用于使用ASP.NET / VB.NET构建的站点。有关其工作原理的详细信息&＃xff0c;请参阅此页面。此外&＃xff0c;这是一个蜘蛛的示例 &＃xff0c;它刮擦其中一个站点。

Scrapy是否自动管理COOKIE&＃xff1f;

是的&＃xff0c;Scrapy接收并跟踪服务器发送的COOKIE&＃xff0c;并将其发送回后续请求&＃xff0c;就像任何常规Web浏览器一样。

有关更多信息&＃xff0c;请参阅请求和响应以及COOKIEsMiddleware。

如何查看Scrapy发送和接收的COOKIE&＃xff1f;

启用COOKIES_DEBUG设置。

我如何指导蜘蛛自行停止&＃xff1f;

CloseSpider从回调中提出异常。有关更多信息&＃xff0c;请参阅&＃xff1a;CloseSpider。

如何防止我的Scrapy机器人被禁止&＃xff1f;

请参阅避免被禁止。

我应该使用蜘蛛参数或设置来配置我的蜘蛛吗&＃xff1f;

这两种蜘蛛的参数和设置&＃xff0c; 可以用于配置您的蜘蛛。没有严格的规则要求使用其中一个&＃xff0c;但设置更适合参数&＃xff0c;一旦设置&＃xff0c;变化不大&＃xff0c;而蜘蛛参数意味着更频繁地更改&＃xff0c;即使在每个蜘蛛运行时&＃xff0c;有时是蜘蛛根本需要运行&＃xff08;例如&＃xff0c;设置蜘蛛的起始URL&＃xff09;。

举一个例子来说明&＃xff0c;假设您有一个需要登录站点来抓取数据的蜘蛛&＃xff0c;并且您只想从站点的某个部分&＃xff08;每次都有所不同&＃xff09;中抓取数据。在这种情况下&＃xff0c;登录的凭据将是设置&＃xff0c;而要刮取的部分的URL将是蜘蛛参数。

我正在抓取一个XML文档&＃xff0c;我的XPath选择器不会返回任何项目

您可能需要删除命名空间。请参阅删除命名空间。

程序流程没问题&＃xff0c;启动就自动停止&＃xff0c;也无报错

这可能是Spider中解析函数命名和关键词命名重合&＃xff0c;导致回调不执行&＃xff0c;不能增量抓取&＃xff0c;短时间即停止

推荐阅读

get
深入理解Cookie与Session会话管理

本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息，以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制，解释其原理及应用场景。 ... [详细]

蜡笔小新 2024-12-27 18:20:43
post
使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表

本文介绍了一段通用代码示例，该代码不仅能够操作 Azure Active Directory (AAD)，还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级：AAD 和 Subscription。 ... [详细]

蜡笔小新 2024-12-27 16:07:12
tags
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
cmd
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
post
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新 2024-12-28 08:54:34
post
PHP 5.2.5 安装与配置指南

本文详细介绍了 PHP 5.2.5 的安装和配置步骤，帮助开发者解决常见的环境配置问题，特别是上传图片时遇到的错误。通过本教程，您可以顺利搭建并优化 PHP 运行环境。 ... [详细]

蜡笔小新 2024-12-27 19:05:41
post
如何在窗口右下角添加调整大小的手柄

本文探讨了如何在传统MFC/Win32 API编程中实现类似C# WinForms中的SizeGrip功能，即在窗口的右下角显示一个用于调整窗口大小的手柄。我们将介绍具体的实现方法和相关API。 ... [详细]

蜡笔小新 2024-12-27 11:17:27
go
Go+ 中的上下文处理指南

本文详细介绍 Go+ 编程语言中的上下文处理机制，涵盖其基本概念、关键方法及应用场景。Go+ 是一门结合了 Go 的高效工程开发特性和 Python 数据科学功能的编程语言。 ... [详细]

蜡笔小新 2024-12-28 11:05:31
get
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
range
导航栏样式练习：项目实例解析

本文详细介绍了如何创建一个具有动态效果的导航栏，包括HTML、CSS和JavaScript代码的实现，并附有详细的说明和效果图。 ... [详细]

蜡笔小新 2024-12-27 19:42:28
post
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
get
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
get
c# – UWP：BrightnessOverride StartOverride逻辑

c# – UWP：BrightnessOverride StartOverride逻辑 ... [详细]

蜡笔小新 2024-12-27 16:56:40
get
Linux 自动化安装脚本详解

本文介绍了一款用于自动化部署 Linux 服务的 Bash 脚本。该脚本不仅涵盖了基本的文件复制和目录创建，还处理了系统服务的配置和启动，确保在多种 Linux 发行版上都能顺利运行。 ... [详细]

蜡笔小新 2024-12-27 16:33:32
get
深入解析ExpandableComposite.addExpansionListener()方法及其应用

本文详细介绍了Java中org.eclipse.ui.forms.widgets.ExpandableComposite类的addExpansionListener()方法，并提供了多个实际代码示例，帮助开发者更好地理解和使用该方法。这些示例来源于多个知名开源项目，具有很高的参考价值。 ... [详细]

蜡笔小新 2024-12-27 16:11:49