为什么每次爬虫获取的数据量都不一样？

作者：a171759015_753 | 来源：互联网 | 2023-10-11 13:23

目标页面上有100个url,爬虫会顺着这些url进去爬取内容，有时会返回二十几条内容，有时三十几条，每次都不一样，这是什么原因造成的？程序结构如下：

目标页面上有100个url,爬虫会顺着这些url进去爬取内容，有时会返回二十几条内容，有时三十几条，每次都不一样，这是什么原因造成的？

程序结构如下：

1
2
3
4
5
6
7
8
9

start_urls = [domain_url]

def parse(self, response):

for link in links:

yield Request(link,callback=self.parse2)

def parse2(self,response):

sel =Selector(response)

print sel

当然，我也设置了DOWNLOAD_DELAY、DOWNLOAD_TIMEOUT、retrymiddleware、UserAgentMiddleware用来改善爬取效果。

但效果不好，怎么去做？谢！

推荐阅读

java
Python3爬虫入门：pyspider的基本使用[python爬虫入门]

Python学习网有大量免费的Python入门教程，欢迎大家来学习。本文主要通过爬取去哪儿网的旅游攻略来给大家介绍pyspid ... [详细]

蜡笔小新 2024-11-22 18:00:41
char
Web动态服务器Python基本实现

Web动态服务器Python基本实现 ... [详细]

蜡笔小新 2024-11-21 08:01:30
get
JavaScript 跨域解决方案详解

本文详细介绍了JavaScript在不同域之间进行数据传输或通信的技术，包括使用JSONP、修改document.domain、利用window.name以及HTML5的postMessage方法等跨域解决方案。 ... [详细]

蜡笔小新 2024-11-22 16:27:56
string
Struts2 + json+ jquery 实现三级联动action和jsp代码竟然有小红叉，提示缺双引号，检查了转义符号也没缺啊，求解

publicclassBindActionextendsActionSupport{privateStringproString;privateStringcitString; ... [详细]

蜡笔小新 2024-11-21 16:25:41
string
深入理解：AJAX学习指南

本文详细探讨了AJAX的基本概念、工作原理及其在现代Web开发中的应用，旨在为初学者提供全面的学习资料。 ... [详细]

蜡笔小新 2024-11-20 17:58:54
string
深入解析 Bootstrap Table 的使用技巧

本文详细介绍了如何利用 Bootstrap Table 实现数据展示与操作，包括数据加载、表格配置及前后端交互等关键步骤。 ... [详细]

蜡笔小新 2024-11-20 17:21:26
spring
Spring Boot使用AJAX从数据库读取数据异步刷新前端表格

　　近期项目需要是实现一个通过筛选选取所需数据刷新表格的功能，因为表格只占页面的一小部分，不希望整个也页面都随之刷新，所以首先想到了使用AJAX来实现。　　以下介绍解决方法（请忽视 ... [详细]

蜡笔小新 2024-11-19 10:11:02
input
python并发打开网页_python并发_线程

关于进程的复习：#管道#数据的共享Managerdictlist#进程池#cpu个数1#retmap(func,iterable)#异步自带close和join#所有 ... [详细]

蜡笔小新 2024-11-17 13:24:48
python
Python 爬虫实战：获取京东手机价格和参数

本文通过一个具体的案例，展示了如何使用 Python 爬虫技术从京东网站爬取手机的价格和参数。最近发布的 iPhone X 虽然价格昂贵，但不妨碍我们探索其他高性价比的国产手机。 ... [详细]

蜡笔小新 2024-11-17 06:52:22
char
GTK+2: 实现透明背景下的小部件叠加绘制

本文介绍了如何在GTK+2中实现透明背景下的小部件叠加绘制，类似于GTK3中的GtkOverlay功能。 ... [详细]

蜡笔小新 2024-11-16 21:57:13
string
C#我自己做一个网站图片的抓取

我自己做了一个网站图片的抓取,感觉速度有点慢抓取4000张图片可能得用15分钟左右的时间,我百度看用线程可以加快抓取,然后创建了5个线程抓取,但是5个线程是同步执行同样的操作一个图片就 ... [详细]

蜡笔小新 2024-11-16 16:00:18
string
使用Tkinter构建51Ape无损音乐爬虫UI

本文介绍了如何使用Python的内置模块Tkinter来构建一个简单的用户界面，用于爬取51Ape网站上的无损音乐百度云链接。虽然Tkinter入门相对简单，但在实际开发过程中由于文档不足可能会带来一些不便。 ... [详细]

蜡笔小新 2024-11-15 10:31:11
string
使用Python爬取妙笔阁小说信息并保存为TXT和CSV格式

本文介绍了如何使用Python爬取妙笔阁小说网仙侠系列中所有小说的信息，并将其保存为TXT和CSV格式。主要内容包括如何构造请求头以避免被网站封禁，以及如何利用XPath解析HTML并提取所需信息。 ... [详细]

蜡笔小新 2024-11-14 19:54:58
python
Python3爬虫实战：突破网站反爬虫机制的方法

本文详细探讨了使用Python3编写爬虫时如何应对网站的反爬虫机制，通过实例讲解了如何模拟浏览器访问，帮助读者更好地理解和应用相关技术。 ... [详细]

蜡笔小新 2024-11-14 19:48:54
sum
周排行与月排行榜开发总结

本文详细介绍了如何在PHP中实现周排行和月排行榜的开发，包括数据库设计、数据记录和查询方法。涉及的知识点包括MySQL的GROUP BY、WEEK和MONTH函数。 ... [详细]

蜡笔小新 2024-11-14 19:14:58

a171759015_753

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章