python爬虫性能_讨论如何爬虫性能

作者：辰小坏2602938945 | 来源：互联网 | 2023-09-11 02:04

如果单纯是性能的话，应该考虑几个方面1.http请求尽量采用pool的方式保持会话2.尽可能避免重复url和重复页面的抓取3.不要使用单一磁盘存储，尽可

如果单纯是性能的话&＃xff0c;应该考虑几个方面

1.http 请求尽量采用 pool 的方式保持会话

2.尽可能避免重复 url 和重复页面的抓取

3.不要使用单一磁盘存储&＃xff0c;尽可能用一些 Nosql 数据库或内存高速缓存(例如&＃xff1a; redis/memcache )

4.降低存储部分冗余&＃xff0c;提高存储效率&＃xff0c;比如去除空格之类的&＃xff0c;如果是二进制文件可以采用一些算法进行压缩存储

5.ajax 类型网站和 flash 网站&＃xff0c; Parser 和 download 一定要分开&＃xff0c; ajax 类网站的话可能需要考虑一下内存问题&＃xff0c;如果使用 phantomjs 如果有可能最好能用 v8 去代替 jscore (过程十分的艰难&＃xff0c;不要轻易尝试), 并且禁用安全检测&＃xff0c;使用磁盘缓存(硬件方面能使用 ssd 最好了)

6.使用更快速的 dns 服务器&＃xff0c;爬虫尽可能去缓存 dns 地址

7.多台机器性能一定高于单台机器

8.在条件允许的情况下用 pypy 代替 cpython 会更好

一些抓取遇到的反制问题

1.由于抓取频率过快&＃xff0c;会被服务器认为是 ddos 攻击或爬虫抓取(有时候确实会让服务器宕机)

解决方案&＃xff1a;使用代理进行绕过&＃xff0c;并实现一些智能算法使爬虫更像人类(例如&＃xff1a;一旦被 ban 掉自动切换代理&＃xff0c;并减缓抓取速度&＃xff0c;如果一定时间内没有被 ban 掉&＃xff0c;则提高抓取速度&＃xff0c;这样能自适应一个网站能承受的最大速度)

2.遇到验证码

解决方案&＃xff1a;简单的验证码通过 hash 感知和一些简单的字模型匹配就能够解决&＃xff0c;复杂验证码例如&＃xff1a; recapture 这类可以靠人工去识别(有这种打码平台)&＃xff0c;如果是第二代验证码基于坐标位置的这类目前暂无解决办法

3.操作需要登录

解决方法&＃xff1a;自己注册或购买账号&＃xff0c;但是仍然可能可能会遇到问题 2 &＃xff0c;所以不继续说了&＃xff0c;需要注意的是&＃xff0c;某一些网站会通过一些特定元素的请求判断是是否是真实的登录&＃xff0c;如果没有请求是无法成功的

4.异地登录需要验证

1.这种呢&＃xff0c;能透露的就是尽可能不要异地登录&＃xff0c;其它一些歪门邪道的方法不好说

推荐阅读

io
阿里面试题解析：分库分表后的无限扩容瓶颈与解决方案

本文探讨了在分布式系统中，分库分表后的无限扩容问题及其解决方案。通过分析不同阶段的服务架构演变，提出了单元化作为解决数据库连接数过多的有效方法。 ... [详细]

蜡笔小新 2024-11-15 18:36:50
web
Bootstrap 插件使用指南

本文详细介绍了如何在 Web 前端开发中使用 Bootstrap 插件，包括自动触发插件的方法、插件的引用方式以及具体的实例。 ... [详细]

蜡笔小新 2024-11-15 12:24:25
char
浅析python实现布隆过滤器及Redis中的缓存穿透原理_python

本文带你了解了位图的实现，布隆过滤器的原理及Python中的使用，以及布隆过滤器如何应对Redis中的缓存穿透，相信你对布隆过滤 ... [详细]

蜡笔小新 2024-11-13 16:43:07
include
解决DNS服务器配置转发无法解析的问题

本文详细介绍了如何解决DNS服务器配置转发无法解析的问题，包括编辑主配置文件和重启域名服务的具体步骤。 ... [详细]

蜡笔小新 2024-11-13 02:41:19
char
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
web
Framework7：构建跨平台移动应用的高效框架

Framework7 是一个开源免费的框架，适用于开发混合移动应用（原生与HTML混合）或iOS&Android风格的Web应用。此外，它还可以作为原型开发工具，帮助开发者快速创建应用原型。 ... [详细]

蜡笔小新 2024-11-12 14:47:56
process
Web开发框架概览：Java与JavaScript技术及框架综述

Web开发涉及服务器端和客户端的协同工作。在服务器端，Java是一种优秀的编程语言，适用于构建各种功能模块，如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示，同时借助JavaScript增强交互性和动态效果。此外，现代Web开发还广泛使用各种框架和库，如Spring Boot、React和Vue.js，以提高开发效率和应用性能。 ... [详细]

蜡笔小新 2024-11-09 11:59:38
process
解决 Git Push 冲突的方法

本文介绍了三种解决 Git Push 冲突的方法，包括创建新分支、手动解决冲突和强行推送。这些方法适用于不同的开发场景，如版本迭代、多人协作和个人开发。 ... [详细]

蜡笔小新 2024-11-16 17:30:02
process
深入解析：比特币、以太坊与超级账本

近年来，区块链技术备受关注，其中比特币（Bitcoin）功不可没。尽管数字货币的概念早在上个世纪就被提出，但直到比特币的诞生，这一概念才真正落地生根。本文将详细探讨比特币、以太坊和超级账本（Hyperledger）的核心技术和应用场景。 ... [详细]

蜡笔小新 2024-11-16 13:24:23
int
Python学习day3网络基础之网络协议篇

一、互联网协议连接两台计算机之间的Internet实际上就是一系列统一的标准，这些标准称之为互联网协议，互联网的本质就是一系列网络协议。二、为什么要有互联网协议互联网协议就相当于计 ... [详细]

蜡笔小新 2024-11-16 12:20:00
int
Java EE 平台的 13 种核心技术

Java EE 平台集成了多种服务、API 和协议，旨在支持基于 Web 的多层应用程序开发。本文将详细介绍 Java EE 中的 13 种关键技术规范，帮助开发者更好地理解和应用这些技术。 ... [详细]

蜡笔小新 2024-11-15 21:15:35
int
Cacti 多核 CPU 监控模板（2、4、8、12、16、24、32 核）

本文章提供了适用于 Cacti 的多核 CPU 监控模板，支持 2、4、8、12、16、24 和 32 核配置。请注意，0.87g 版本的 Cacti 需要手动修改哈希值为 0021 才能使用，而 0.88 及以上版本则可直接导入。 ... [详细]

蜡笔小新 2024-11-15 20:54:45
header
阿里云 Aliplayer高级功能介绍(八)：安全播放

如何保障视频内容的安全，不被盗链、非法下载和传播，阿里云视频点播已经有一套完善的机 ... [详细]

蜡笔小新 2024-11-15 18:04:15
header
小程序的授权和登陆

小程序的授权和登陆 ... [详细]

蜡笔小新 2024-11-14 19:07:05
web
深入解析浏览器内核与版本的发展历程

浏览器作为我们日常不可或缺的软件工具，其背后的运作机制却鲜为人知。本文将深入探讨浏览器内核及其版本的演变历程，帮助读者更好地理解这一关键技术组件，揭示其内部运作的奥秘。 ... [详细]

蜡笔小新 2024-11-11 13:34:37

辰小坏2602938945

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章