Python爬虫简易代理池

作者：sijiamian_767 | 来源：互联网 | 2023-08-26 10:04

爬虫代理IP池在公司做分布式深网爬虫，搭建了一套稳定的代理池服务，为上千个爬虫提供有效的代理，保证各个爬虫拿到的都是对应网站有效的代理IP，从而保证爬虫快速稳定的运行，当然在公司做

爬虫代理IP池

在公司做分布式深网爬虫，搭建了一套稳定的代理池服务，为上千个爬虫提供有效的代理，保证各个爬虫拿到的都是对应网站有效的代理IP，从而保证爬虫快速稳定的运行，当然在公司做的东西不能开源出来。不过呢，闲暇时间手痒，所以就想利用一些免费的资源搞一个简单的代理池服务。

1、问题

代理IP从何而来？

　　刚自学爬虫的时候没有代理IP就去西刺、快代理之类有免费代理的网站去爬，还是有个别代理能用。当然，如果你有更好的代理接口也可以自己接入。
　　免费代理的采集也很简单，无非就是：访问页面页面 —> 正则/xpath提取 —> 保存

如何保证代理质量？

　　可以肯定免费的代理IP大部分都是不能用的，不然别人为什么还提供付费的(不过事实是很多代理商的付费IP也不稳定，也有很多是不能用)。所以采集回来的代理IP不能直接使用，可以写检测程序不断的去用这些代理访问一个稳定的网站，看是否可以正常使用。这个过程可以使用多线程或异步的方式，因为检测代理是个很慢的过程。

采集回来的代理如何存储？

　　这里不得不推荐一个高性能支持多种数据结构的NoSQL数据库SSDB，用于代理Redis。支持队列、hash、set、k-v对，支持T级别数据。是做分布式爬虫很好中间存储工具。

如何让爬虫更简单的使用这些代理？

　　答案肯定是做成服务咯，python有这么多的web框架，随便拿一个来写个api供爬虫调用。这样有很多好处，比如：当爬虫发现代理不能使用可以主动通过api去delete代理IP，当爬虫发现代理池IP不够用时可以主动去refresh代理池。这样比检测程序更加靠谱。

2、代理池设计

　　代理池由四部分组成:

ProxyGetter:

　　代理获取接口，目前有5个免费代理源，每调用一次就会抓取这个5个网站的最新代理放入DB，可自行添加额外的代理获取接口；

DB:

　　用于存放代理IP，现在暂时只支持SSDB。至于为什么选择SSDB，大家可以参考这篇文章,个人觉得SSDB是个不错的Redis替代方案，如果你没有用过SSDB，安装起来也很简单，可以参考这里；

Schedule:

　　计划任务用户定时去检测DB中的代理可用性，删除不可用的代理。同时也会主动通过ProxyGetter去获取最新代理放入DB；

ProxyApi:

　　代理池的外部接口，由于现在这么代理池功能比较简单，花两个小时看了下Flask，愉快的决定用Flask搞定。功能是给爬虫提供get/delete/refresh等接口，方便爬虫直接使用。

《Python爬虫简易代理池》

3、代码模块

　　Python中高层次的数据结构,动态类型和动态绑定,使得它非常适合于快速应用开发,也适合于作为胶水语言连接已有的软件部件。用Python来搞这个代理IP池也很简单，代码分为6个模块：

Api:
　　api接口相关代码，目前api是由Flask实现，代码也非常简单。客户端请求传给Flask，Flask调用ProxyManager中的实现，包括get/delete/refresh/get_all；

DB:
　　数据库相关代码，目前数据库是采用SSDB。代码用工厂模式实现，方便日后扩展其他类型数据库；

Manager:
　　get/delete/refresh/get_all等接口的具体实现类，目前代理池只负责管理proxy，日后可能会有更多功能，比如代理和爬虫的绑定，代理和账号的绑定等等；

ProxyGetter:
　　代理获取的相关代码，目前抓取了快代理、代理66、有代理、西刺代理、guobanjia这个五个网站的免费代理，经测试这个5个网站每天更新的可用代理只有六七十个，当然也支持自己扩展代理接口；

Schedule:
　　定时任务相关代码，现在只是实现定时去刷新代码，并验证可用代理，采用多进程方式；

Util:
　　存放一些公共的模块方法或函数，包含GetConfig:读取配置文件config.ini的类，ConfigParse: 集成重写ConfigParser的类，使其对大小写敏感， Singleton:实现单例，LazyProperty:实现类属性惰性计算。等等；

其他文件:
　　配置文件:Config.ini,数据库配置和代理获取接口配置，可以在GetFreeProxy中添加新的代理获取方法，并在Config.ini中注册即可使用；

4、安装

下载代码:

git clone git@github.com:jhao104/proxy_pool.git 或者直接到https://github.com/jhao104/proxy_pool 下载zip文件

安装依赖:

pip install -r requirements.txt

启动:

需要分别启动定时任务和api 到Config.ini中配置你的SSDB 到Schedule目录下: >>>python ProxyRefreshSchedule.py 到Api目录下: >>>python ProxyApi.py

5、使用

　　定时任务启动后，会通过代理获取方法fetch所有代理放入数据库并验证。此后默认每20分钟会重复执行一次。定时任务启动大概一两分钟后，便可在SSDB中看到刷新出来的可用的代理：

《Python爬虫简易代理池》

　　启动ProxyApi.py后即可在浏览器中使用接口获取代理，一下是浏览器中的截图:

　　index页面:

《Python爬虫简易代理池》
get页面：

《Python爬虫简易代理池》

　　get_all页面：

《Python爬虫简易代理池》

　　爬虫中使用，如果要在爬虫代码中使用的话，可以将此api封装成函数直接使用，例如:

import requests def get_proxy(): return requests.get(“http://127.0.0.1:5000/get/&＃8221;).content def delete_proxy(proxy): requests.get(“http://127.0.0.1:5000/delete/?proxy={}&＃8221;.format(proxy)) # your spider code def spider(): # …. requests.get(‘https://www.example.com‘, proxies={“http”: “http://{}&＃8221;.format(get_proxy)}) # ….

6、最后

　　时间仓促，功能和代码都比较简陋，以后有时间再改进。喜欢的在github上给个star。感谢！
github项目地址:jhao104/proxy_pool
博客:博客 &＃8211; j_hao104的个人页面

http://weixin.qq.com/r/PUi_pqzEzPGzrejF9x0v (二维码自动识别)

欢迎关注微信公众号：Pythoner每日一报

推荐阅读

list
在List和Set集合中存储Object类型的数据元素

在List和Set集合中存储Object类型的数据元素 ... [详细]

蜡笔小新 2024-11-09 18:55:32
post
技术分享：使用 Flask、AngularJS 和 Jinja2 构建高效前后端交互系统

技术分享：使用 Flask、AngularJS 和 Jinja2 构建高效前后端交互系统 ... [详细]

蜡笔小新 2024-11-11 15:24:24
grid
WordPress Duplicator 0.4.4 版本存在跨站脚本攻击漏洞分析

在对WordPress Duplicator插件0.4.4版本的安全评估中，发现其存在跨站脚本（XSS）攻击漏洞。此漏洞可能被利用进行恶意操作，建议用户及时更新至最新版本以确保系统安全。测试方法仅限于安全研究和教学目的，使用时需自行承担风险。漏洞编号：HTB23162。 ... [详细]

蜡笔小新 2024-11-10 13:16:43
cmd
Python 程序转换为 EXE 文件：详细解析 .py 脚本打包成独立可执行文件的方法与技巧

在开发了几个简单的爬虫 Python 程序后，我决定将其封装成独立的可执行文件以便于分发和使用。为了实现这一目标，首先需要解决的是如何将 Python 脚本转换为 EXE 文件。在这个过程中，我选择了 Qt 作为 GUI 框架，因为之前对此并不熟悉，希望通过这个项目进一步学习和掌握 Qt 的基本用法。本文将详细介绍从 .py 脚本到 EXE 文件的整个过程，包括所需工具、具体步骤以及常见问题的解决方案。 ... [详细]

蜡笔小新 2024-11-09 14:59:47
plugins
CLIfe：我的高效开发环境配置

在开发过程中，我最初也依赖于功能全面但操作繁琐的集成开发环境（IDE），如Borland Delphi 和 Microsoft Visual Studio。然而，随着对高效开发的追求，我逐渐转向了更加轻量级和灵活的工具组合。通过 CLIfe，我构建了一个高度定制化的开发环境，不仅提高了代码编写效率，还简化了项目管理流程。这一配置结合了多种强大的命令行工具和插件，使我在日常开发中能够更加得心应手。 ... [详细]

蜡笔小新 2024-11-07 18:32:20
jsp
Python 数据库操作指南：MySQL 与 Redis 实战技巧

本文详细介绍了使用 Python 进行 MySQL 和 Redis 数据库操作的实战技巧。首先，针对 MySQL 数据库，通过 `pymysql` 模块展示了如何连接和操作数据库，包括建立连接、执行查询和更新等常见操作。接着，文章深入探讨了 Redis 的基本命令和高级功能，如键值存储、列表操作和事务处理。此外，还提供了多个实际案例，帮助读者更好地理解和应用这些技术。 ... [详细]

蜡笔小新 2024-11-07 12:55:01
jsp
如何使用mysql_nd：Python连接MySQL数据库的优雅指南

无论是进行机器学习、Web开发还是爬虫项目，数据库操作都是必不可少的一环。本文将详细介绍如何使用Python通过 `mysql_nd` 库与 MySQL 数据库进行高效连接和数据交互。内容涵盖以下几个方面： ... [详细]

蜡笔小新 2024-11-06 15:19:37
jsp
利用树莓派畅享落网电台音乐体验

最近重新拾起了闲置已久的树莓派，这台小巧的开发板已经沉寂了半年多。上个月闲暇时间较多，我决定将其重新启用。恰逢落网电台进行了改版，回忆起之前在树莓派论坛上看到有人用它来播放豆瓣音乐，便萌生了同样的想法。通过一番调试，终于实现了在树莓派上流畅播放落网电台音乐的功能，带来了全新的音乐享受体验。 ... [详细]

蜡笔小新 2024-11-05 09:20:37
list
【Python编程基础】深入理解Python中的循环结构

在《Python编程基础》课程中，我们将深入探讨Python中的循环结构。通过详细解析for循环和while循环的语法与应用场景，帮助初学者掌握循环控制语句的核心概念和实际应用技巧。此外，还将介绍如何利用循环结构解决复杂问题，提高编程效率和代码可读性。 ... [详细]

蜡笔小新 2024-11-04 15:46:58
list
掌握PHP编程必备知识与技巧——全面教程

掌握PHP编程必备知识与技巧——全面教程在当今的PHP开发中，了解并运用最新的技术和最佳实践至关重要。本教程将详细介绍PHP编程的核心知识与实用技巧。首先，确保你正在使用PHP 5.3或更高版本，最好是最新版本，以充分利用其性能优化和新特性。此外，我们还将探讨代码结构、安全性和性能优化等方面的内容，帮助你成为一名更高效的PHP开发者。 ... [详细]

蜡笔小新 2024-11-03 16:38:49
regex
Python内置模块详解：正则表达式re模块的应用与解析

正则表达式是一种强大的文本处理工具，通过特定的字符序列来定义搜索模式。本文详细介绍了Python内置的`re`模块，探讨了其在字符串匹配、验证和提取中的应用。例如，可以通过正则表达式验证电子邮件地址、电话号码、QQ号、密码、URL和IP地址等。此外，文章还深入解析了`re`模块的各种函数和方法，提供了丰富的示例代码，帮助读者更好地理解和使用这一工具。 ... [详细]

蜡笔小新 2024-11-07 17:25:01
regex
MySQL 正则表达式深入解析：REGEXP 功能与应用详解

在探讨 MySQL 正则表达式 REGEXP 的功能与应用之前，我们先通过一个小实验来对比 REGEXP 和 LIKE 的性能。通过具体的代码示例，我们将评估这两种查询方式的效率，以确定 REGEXP 是否值得深入研究。实验结果将为后续的详细解析提供基础。 ... [详细]

蜡笔小新 2024-11-07 16:02:12
replace
如何使用Python去除字符串中的非中文字符[Python编程技巧]

在 Python 中，可以通过正则表达式来实现去除字符串中的非中文字符。具体方法是使用 `re` 模块中的 `re.sub()` 函数，配合正则表达式 `[^u4e00-u9fa5]` 来匹配并替换掉所有非中文字符，从而保留字符串中的中文部分。这种方法简洁高效，适用于多种文本处理场景。 ... [详细]

蜡笔小新 2024-11-07 15:30:50
post
技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告

技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告 ... [详细]

蜡笔小新 2024-11-07 14:33:19
数组
HBase Java API 进阶：过滤器详解与应用实例

本文详细探讨了HBase 1.2.6版本中Java API的高级应用，重点介绍了过滤器的使用方法和实际案例。首先，文章对几种常见的HBase过滤器进行了概述，包括列前缀过滤器（ColumnPrefixFilter）和时间戳过滤器（TimestampsFilter）。此外，还详细讲解了分页过滤器（PageFilter）的实现原理及其在大数据查询中的应用场景。通过具体的代码示例，读者可以更好地理解和掌握这些过滤器的使用技巧，从而提高数据处理的效率和灵活性。 ... [详细]

蜡笔小新 2024-11-05 15:08:18

sijiamian_767

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章