热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

为什么每次爬虫获取的数据量都不一样?

目标页面上有100个url,爬虫会顺着这些url进去爬取内容,有时会返回二十几条内容,有时三十几条,每次都不一样,这是什么原因造成的?程序结构如下:

目标页面上有100个url,爬虫会顺着这些url进去爬取内容,有时会返回二十几条内容,有时三十几条,每次都不一样,这是什么原因造成的?

程序结构如下:

1
2
3
4
5
6
7
8
9
start_urls = [domain_url]



def parse(self, response):

   for link in links:

          yield Request(link,callback=self.parse2)

         

 def parse2(self,response):

        sel =Selector(response)

        print sel

当然,我也设置了DOWNLOAD_DELAY、DOWNLOAD_TIMEOUT、retrymiddleware、UserAgentMiddleware用来改善爬取效果。

但效果不好,怎么去做?谢!


推荐阅读
author-avatar
a171759015_753
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有