作者:日月阁文玩都汇 | 来源:互联网 | 2023-10-17 08:25
问题
在用 scrapy-redis 进行分布式采集的过程中,分析日志发现 pages/min 数量呈现规律性的波动
原因分析
利用 Telnet 工具进行爬取状态的监控
在CONCURRENT_REQUESTS=16
的情况下,爬虫刚启动时从 redis 队列中拉取 16 个请求,进入下载器,直到这16个请求全部下载完成后,爬虫进入空闲状态,调度器才会再次从redis队列中拉取16个请求
如果有使用代理的话,每一批请求的访问间隔则由最慢的那一次请求来决定,会拖慢整个爬虫的速度
解决方案
不知道