scrapy抓不到起始网页内容

作者：林秋伟左婷_894 | 来源：互联网 | 2023-10-09 18:53

初学使用scrapy，按照教程建了很小一个例子，还没有到用pipeline之类的地步，只想看看能不能爬东西下来。代码如下：

spider.py：

1
2
3
4
5
6
7
8
9
10
11
12

from scrapy.spider import Spider

class newsSpider(Spider):

name = "News"

allowed_domains = ["people.com.cn"]

start_urls = ["http://people.com.cn"]

def parse(self,response):

print response.url

filename = response.url.split('/')[-2]

print filename

open(filename,'w').write(response.body)

items.py:

1
2
3
4
5
6
7
8
9
10

import scrapy

class TutorialItem(scrapy.Item):

# define the fields for your item here like:

# name = scrapy.Field()

pass

class newsItem(Item):

title = Field()

link = Field()

desc = Field()

但是发现几个新闻网站都爬取失败了，包括：
people.com.cn
news.163.com
ifeng.com
以上几个都会报错：

1	ERROR: Spider error processing (referer: None)

但是，我爬tieba.baidu.com和例子中的"http://www.dmoz.org/Computers/Programming/Languages/Python/Books/"是可以爬下来东西的，也就是response是有内容的，也没有error。

我从以下几个方面改了改：
1.绕过robots.txt，在setting里把

1	ROBOTSTXT_OBEY = False

2.禁用/启用COOKIE，

1	COOKIES_ENABLED = False/True

3.设置USER_AGENT，

1	USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36

'
`

结果并没有改变，那些新闻网站还是起始网页就爬不下来东西，请问怎么办？

推荐阅读

post
Requests库的基本使用方法

本文介绍了Python中Requests库的基础用法，包括如何安装、GET和POST请求的实现、如何处理Cookies和Headers，以及如何解析JSON响应。相比urllib库，Requests库提供了更为简洁高效的接口来处理HTTP请求。 ... [详细]

蜡笔小新 2024-11-21 13:17:41
default
Maven + Spring + MyBatis + MySQL 环境搭建与实例解析

本文详细介绍如何使用MySQL数据库进行环境搭建，包括创建数据库表并插入示例数据。随后，逐步指导如何配置Maven项目，整合Spring框架与MyBatis，实现高效的数据访问。 ... [详细]

蜡笔小新 2024-11-21 18:39:23
post
优化 DOM 以提升 JavaScript 性能

本文探讨了如何通过优化 DOM 操作来提升 JavaScript 的性能，包括使用 `createElement` 函数、动画元素、理解重绘事件及处理鼠标滚动事件等关键主题。 ... [详细]

蜡笔小新 2024-11-21 18:16:19
text
Struts2 + json+ jquery 实现三级联动action和jsp代码竟然有小红叉，提示缺双引号，检查了转义符号也没缺啊，求解

publicclassBindActionextendsActionSupport{privateStringproString;privateStringcitString; ... [详细]

蜡笔小新 2024-11-21 16:25:41
text
调试利器SSH隧道

在开发微信公众号或小程序的时候，由于微信平台规则的限制，部分接口需要通过线上域名才能正常访问。但我们一般都会在本地开发，因为这能快速的看到 ... [详细]

蜡笔小新 2024-11-21 11:15:53
default
Web动态服务器Python基本实现

Web动态服务器Python基本实现 ... [详细]

蜡笔小新 2024-11-21 08:01:30
default
深入解析SpringMVC中的HandlerMapping机制

本文将从基础概念入手，详细探讨SpringMVC框架中DispatcherServlet如何通过HandlerMapping进行请求分发，以及其背后的源码实现细节。 ... [详细]

蜡笔小新 2024-11-20 19:24:42
post
深入理解：AJAX学习指南

本文详细探讨了AJAX的基本概念、工作原理及其在现代Web开发中的应用，旨在为初学者提供全面的学习资料。 ... [详细]

蜡笔小新 2024-11-20 17:58:54
text
在Windows环境中配置和使用Lex与Yacc

本文详细介绍了如何在Windows操作系统中配置和使用Lex（Flex）与Yacc（Bison），包括软件的下载、安装以及通过示例验证其正确性的步骤。 ... [详细]

蜡笔小新 2024-11-20 13:44:49
default
解决 Android Studio 3.1 升级后的编译问题

在将 Android Studio 从 3.0 升级到 3.1 版本后，遇到项目无法正常编译的问题，具体错误信息为：org.gradle.api.tasks.TaskExecutionException: Execution failed for task ':app:processDemoProductDebugResources'。 ... [详细]

蜡笔小新 2024-11-20 10:56:42
express
Spring与Quartz结合实现周期性任务调度

本文介绍了一个使用Spring框架和Quartz调度器实现每周定时调用Web服务获取数据的小项目。通过详细配置Spring XML文件，展示了如何设置定时任务以及解决可能遇到的自动注入问题。 ... [详细]

蜡笔小新 2024-11-19 19:14:50
text
深入解析 Java 中 org.w3c.dom.Node.isEqualNode() 方法及其应用实例

本文详细介绍了 Java 中 org.w3c.dom.Node 类的 isEqualNode() 方法的功能、参数及返回值，并通过多个实际代码示例来展示其具体应用。此方法用于检测两个节点是否相等，而不仅仅是判断它们是否为同一个对象。 ... [详细]

蜡笔小新 2024-11-19 18:11:10
import
JUnit下的测试和suite

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2024-11-21 16:03:49
join
Spring AOP学习笔记Advice执行顺序

一、Advice执行顺序二、Advice在同一个Aspect中三、Advice在不同的Aspect中一、Advice执行顺序如果多个Advice和同一个JointPoint连接& ... [详细]

蜡笔小新 2024-11-21 15:28:36
default
解决Spring Cloud Eureka自定义端口时连接错误的问题

在尝试通过自定义端口部署Spring Cloud Eureka时遇到了连接失败的问题。本文详细描述了问题的现象，并提供了有效的解决方案，以帮助遇到类似情况的开发者。 ... [详细]

蜡笔小新 2024-11-20 13:05:47

林秋伟左婷_894

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章