当前位置: 开发笔记 > 编程语言 > 正文

python运行脚本没反应_python–Scrapy从脚本运行不起作用

作者：手机用户2502858701 | 来源：互联网 | 2023-10-17 12:11

我正在尝试使用scrapycrallsingle运行完美运行的scrapy蜘蛛,但我无法在python脚本中运行它.主要问题是从不执行SingleBlogSpider.parse方

我正在尝试使用scrapy crall single运行完美运行的scrapy蜘蛛,但我无法在python脚本中运行它.

主要问题是从不执行SingleBlogSpider.parse方法,而执行start_requests

这是运行该脚本的代码和输出.我还试图将执行移动到一个单独的文件,但同样的情况发生.

from urlparse import urlparse

from scrapy.http import Request

from scrapy.spider import BaseSpider

from scrapy.selector import HtmlXPathSelector

from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor

class SingleBlogSpider(BaseSpider):

name &＃61; &＃39;single&＃39;

def __init__(self,**kwargs):

super(SingleBlogSpider,self).__init__(**kwargs)

url &＃61; kwargs.get(&＃39;url&＃39;) or kwargs.get(&＃39;domain&＃39;) or &＃39;seaofshoes.com&＃39;

if not url.startswith(&＃39;http://&＃39;) and not url.startswith(&＃39;https://&＃39;):

url &＃61; &＃39;http://%s/&＃39; % url

self.url &＃61; url

self.allowed_domains &＃61; [urlparse(url).hostname.lstrip(&＃39;www.&＃39;)]

self.link_extractor &＃61; SgmlLinkExtractor()

self.COOKIEs_seen &＃61; set()

print 0,self.url

def start_requests(self):

print &＃39;1&＃39;,self.url

return [Request(self.url,callback&＃61;self.parse)]

def parse(self,response):

print &＃39;2&＃39;

# Actual scraper code,that is never executed

if __name__ &＃61;&＃61; &＃39;__main__&＃39;:

from twisted.internet import reactor

from scrapy.crawler import Crawler

from scrapy.settings import Settings

from scrapy import log,signals

spider &＃61; SingleBlogSpider(domain&＃61;&＃39;scrapinghub.com&＃39;)

crawler &＃61; Crawler(Settings())

crawler.signals.connect(reactor.stop,signal&＃61;signals.spider_closed)

crawler.configure()

crawler.crawl(spider)

crawler.start()

log.start()

reactor.run()

输出&＃xff1a;

0 http://scrapinghub.com/

1 http://scrapinghub.com/

2013-09-13 14:21:46-0500 [single] INFO: Closing spider (finished)

2013-09-13 14:21:46-0500 [single] INFO: Dumping Scrapy stats:

{&＃39;downloader/request_bytes&＃39;: 221,&＃39;downloader/request_count&＃39;: 1,&＃39;downloader/request_method_count/GET&＃39;: 1,&＃39;downloader/response_bytes&＃39;: 9403,&＃39;downloader/response_count&＃39;: 1,&＃39;downloader/response_status_count/200&＃39;: 1,&＃39;finish_reason&＃39;: &＃39;finished&＃39;,&＃39;finish_time&＃39;: datetime.datetime(2013,9,13,19,21,46,563184),&＃39;response_received_count&＃39;: 1,&＃39;scheduler/dequeued&＃39;: 1,&＃39;scheduler/dequeued/memory&＃39;: 1,&＃39;scheduler/enqueued&＃39;: 1,&＃39;scheduler/enqueued/memory&＃39;: 1,&＃39;start_time&＃39;: datetime.datetime(2013,328961)}

2013-09-13 14:21:46-0500 [single] INFO: Spider closed (finished)

该程序永远不会到达SingleBlogSpider.parse并打印’2′,因此它不会抓取任何内容.但是你可以在输出上看到它确实发出了请求,所以不确定是什么.

Scrapy版本&＃61;&＃61; 0.18.2

我真的无法发现错误,真的很感激帮助.

谢谢&＃xff01;

推荐阅读

dom
PyCharm下载与安装指南

本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境（IDE），涵盖Windows、macOS和Linux系统，同时提供详细的安装步骤及配置建议。 ... [详细]

蜡笔小新 2024-12-28 09:42:41
config
网络链路质量监控：Smokeping部署与配置

本文详细介绍了如何在Linux系统上安装和配置Smokeping，以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装，确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]

蜡笔小新 2024-12-27 19:31:05
uri
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
select
MyBatis 动态 SQL 详解与应用

本文深入探讨 MyBatis 中动态 SQL 的使用方法，包括 if/where、trim 自定义字符串截取规则、choose 分支选择、封装查询和修改条件的 where/set 标签、批量处理的 foreach 标签以及内置参数和 bind 的用法。 ... [详细]

蜡笔小新 2024-12-27 16:20:10
hash
Deepin系统下MySQL 5.7安装指南

本文详细记录了在基于Debian的Deepin 20操作系统上安装MySQL 5.7的具体步骤，包括软件包的选择、依赖项的处理及远程访问权限的配置。 ... [详细]

蜡笔小新 2024-12-28 10:48:41
hash
Navicat Premium 15 安装指南及数据库连接配置

本文详细介绍 Navicat Premium 15 的安装步骤及其对多种数据库（如 MySQL 和 Oracle）的支持，帮助用户顺利完成软件的安装与激活。 ... [详细]

蜡笔小新 2024-12-28 10:12:05
select
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
ip
解决Uploadify在IE浏览器中的兼容性问题

本文详细介绍了如何解决Uploadify插件在Internet Explorer（IE）9和10版本中遇到的点击失效及JQuery运行时错误问题。通过修改相关JavaScript代码，确保上传功能在不同浏览器环境中的一致性和稳定性。 ... [详细]

蜡笔小新 2024-12-27 22:07:40
ip
FastJSON解析与数据提取技巧

探讨如何高效使用FastJSON进行JSON数据解析，特别是从复杂嵌套结构中提取特定字段值的方法。 ... [详细]

蜡笔小新 2024-12-27 19:49:07
java
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
config
Dockerfile 编写与 Docker 网络配置详解

本文详细介绍了 Dockerfile 的编写方法及其在网络配置中的应用，涵盖基础指令、镜像构建与发布流程，并深入探讨了 Docker 的默认网络、容器互联及自定义网络的实现。 ... [详细]

蜡笔小新 2024-12-27 17:31:41
uri
使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表

本文介绍了一段通用代码示例，该代码不仅能够操作 Azure Active Directory (AAD)，还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级：AAD 和 Subscription。 ... [详细]

蜡笔小新 2024-12-27 16:07:12
config
深入解析Spring Cloud Ribbon负载均衡机制

本文详细介绍了Spring Cloud中的Ribbon组件如何实现服务调用的负载均衡。通过分析其工作原理、源码结构及配置方式，帮助读者理解Ribbon在分布式系统中的重要作用。 ... [详细]

蜡笔小新 2024-12-27 16:01:25
java
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09
uri
DNN Community 和 Professional 版本的主要差异

本文详细解析了 DotNetNuke (DNN) 的两种主要版本：Community 和 Professional。通过对比两者的功能和附加组件，帮助用户选择最适合其需求的版本。 ... [详细]

蜡笔小新 2024-12-27 13:14:08

手机用户2502858701

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章