当前位置: 开发笔记 > 编程语言 > 正文

python网络爬虫代理_python爬虫实战python3批量抓取并验证快代理免费代理地址

作者：跟随自己的2502917817 | 来源：互联网 | 2023-08-19 15:04

特别声明：本文为原创，可自由转载、引用，但需署名作者且注明文章出处，如有侵权请联系！使用python写个爬虫批

特别声明&＃xff1a;本文为原创&＃xff0c;可自由转载、引用&＃xff0c;但需署名作者且注明文章出处&＃xff0c;如有侵权请联系&＃xff01;

使用python写个爬虫批量抓取并验证快代理免费代理地址import requests

import threading

from bs4 import BeautifulSoup

from queue import Queue

headers&＃61;{

&＃39;User-Agent&＃39;:&＃39;Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36&＃39;,

}

# 分隔符

Separator&＃61;&＃39;|&＃39;

data_queue&＃61;Queue()

def get_list(page):

countNum&＃61;0

All_proxy&＃61;[]

for p in range(1,page&＃43;1):

url&＃61;&＃39;https://www.kuaidaili.com/free/inha/{}/&＃39;.format(p)

print(url)

r&＃61;requests.get(url,headers&＃61;headers)

soup&＃61;BeautifulSoup(r.text,&＃39;lxml&＃39;)

trs &＃61; soup.find(&＃39;table&＃39;, class_&＃61;&＃39;table&＃39;).find_all(&＃39;tr&＃39;)

for tr in trs[1:]:

tds &＃61; tr.find_all(&＃39;td&＃39;)

ip&＃61;tds[0].text.strip()

port&＃61;tds[1].text.strip()

anony&＃61;tds[2].text.strip()

protocol&＃61;tds[3].text.strip()

locate&＃61;tds[4].text.strip()

time&＃61;tds[6].text.strip()

proxy_str&＃61;ip&＃43;Separator&＃43;port&＃43;Separator&＃43;protocol&＃43;Separator&＃43;anony&＃43;Separator&＃43;locate&＃43;Separator&＃43;time

data_queue.put(proxy_str)

All_proxy.append(proxy_str)

print(proxy_str)

countNum &＃43;&＃61; 1

text_save(&＃39;Alldaili_kuai.txt&＃39;,All_proxy)

return countNum

def verifyProxyList(items):

myurl &＃61; &＃39;http://www.baidu.com/&＃39;

while 1:

print(&＃39;线程 %s&＃xff1a;启动&＃xff1b;还有%d条数据待处理&＃xff01;&＃39;%(threading.current_thread().name,data_queue.qsize()))

if data_queue.empty():

break

ll&＃61;data_queue.get()

line&＃61;ll.strip().split(Separator)

daili&＃61;&＃39;{}://{}:{}&＃39;.format(line[2].lower(),line[0],line[1])

if line[2].lower()&＃61;&＃61;&＃39;http&＃39;:

proxies&＃61;{

&＃39;http&＃39;:daili,

}

else:

proxies&＃61;{

&＃39;https&＃39;:daili,

}

try:

r&＃61;requests.get(url&＃61;myurl,headers&＃61;headers,proxies&＃61;proxies)

items.append(ll&＃43;Separator&＃43;&＃39;验证成功&＃39;)

print (daili&＃43;" 连接成功&＃xff01;")

except Exception as e:

# items.append(ll&＃43;Separator&＃43;&＃39;验证失败&＃39;)

print (daili&＃43;" 连接失败&＃xff01;")

print(&＃39;线程 %s&＃xff1a;结束&＃xff1b;还有%d条数据待处理&＃xff01;&＃39;%(threading.current_thread().name,data_queue.qsize()))

def text_save(filename, data):#filename为写入txt文件的路径&＃xff0c;data为要写入数据列表.

file &＃61; open(filename,&＃39;a&＃39;)

for i in range(len(data)):

s &＃61; str(data[i]).replace(&＃39;[&＃39;,&＃39;&＃39;).replace(&＃39;]&＃39;,&＃39;&＃39;)#去除[],这两行按数据不同&＃xff0c;可以选择

s &＃61; s.replace("&＃39;",&＃39;&＃39;).replace(&＃39;,&＃39;,&＃39;&＃39;) &＃43;&＃39;\n&＃39; #去除单引号&＃xff0c;逗号&＃xff0c;每行末尾追加换行符

file.write(s)

file.close()

print("保存文件成功")

def main():

page&＃61;int(input(&＃39;请输入你要爬取的页码总数&＃xff1a;&＃39;))

if page>10:

page&＃61;10

# page&＃61;10

countNum&＃61;get_list(page)

print(&＃39;共采集了%d页&＃xff0c;共%d条数据&＃xff01;&＃39;%(page,countNum))

print(&＃39;下面准备开始逐一验证&＃xff0c;请稍后......&＃39;)

all_thread &＃61; []

verify_list&＃61;[]

for i in range(1,31):

t &＃61; threading.Thread(target&＃61;verifyProxyList,name&＃61;"线程"&＃43;str(i),args&＃61;(verify_list,))

all_thread.append(t)

t.start()

for t in all_thread:

t.join()

text_save(&＃39;verified_kuaidaili.txt&＃39;,verify_list)

print(&＃39;验证结束&＃xff0c;共有%d条信息有效&＃39;%len(verify_list))

print ("All Done.")

if __name__ &＃61;&＃61; &＃39;__main__&＃39;:

main()

赏

文章来源&＃xff1a;

zyglz

推荐阅读

input
DVWA学习笔记系列：深入理解CSRF攻击机制

DVWA学习笔记系列：深入理解CSRF攻击机制 ... [详细]

蜡笔小新 2024-11-11 13:19:51
request
网页图像抓取技术学习心得：从零开始掌握爬虫技巧

在今天的实践中，我深入学习了网页图像抓取技术，通过编写爬虫程序批量获取网站上的图片资源。具体来说，我选择了一个包含大量高质量图片的网站作为练习对象，并成功实现了将这些图片批量下载到本地存储。这一过程不仅提升了我对爬虫技术的理解，还增强了我的编程能力。 ... [详细]

蜡笔小新 2024-11-03 19:35:28
request
利用Python高效抓取微博文本与动态网页图像数据

本文介绍了使用 Python 编程语言高效抓取微博文本和动态网页图像数据的方法。通过详细的示例代码，展示了如何利用爬虫技术获取微博内容和动态图片，为数据采集和分析提供了实用的技术支持。对于对网络数据抓取感兴趣的读者，本文具有较高的参考价值。 ... [详细]

蜡笔小新 2024-10-31 14:48:38
input
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
request
Java 曾经有过配对类吗？—— 探讨 Java 中 Pair 类的历史与现状

本文探讨了 Java 中 Pair 类的历史与现状。虽然 Java 标准库中没有内置的 Pair 类，但社区和第三方库提供了多种实现方式，如 Apache Commons 的 Pair 类和 JavaFX 的 javafx.util.Pair 类。这些实现为需要处理成对数据的开发者提供了便利。此外，文章还讨论了为何标准库未包含 Pair 类的原因，以及在现代 Java 开发中使用 Pair 类的最佳实践。 ... [详细]

蜡笔小新 2024-11-06 18:56:35
request
设计实战 | 10个Kotlin项目深度解析：首页模块开发详解

设计实战 | 10个Kotlin项目深度解析：首页模块开发详解 ... [详细]

蜡笔小新 2024-11-05 14:40:47
import
Python 多进程编程：深入解析与实战技巧

在Python多进程编程中，`multiprocessing`模块是不可或缺的工具。本文详细探讨了该模块在多进程管理中的核心原理，并通过实际代码示例进行了深入分析。文章不仅总结了常见的多进程编程技巧，还提供了解决常见问题的实用方法，帮助读者更好地理解和应用多进程编程技术。 ... [详细]

蜡笔小新 2024-11-05 12:32:32
web
深入解析浏览器内核与版本的发展历程

浏览器作为我们日常不可或缺的软件工具，其背后的运作机制却鲜为人知。本文将深入探讨浏览器内核及其版本的演变历程，帮助读者更好地理解这一关键技术组件，揭示其内部运作的奥秘。 ... [详细]

蜡笔小新 2024-11-11 13:34:37
import
Scala学习指南：从零开始掌握基础

本指南从零开始介绍Scala编程语言的基础知识，重点讲解了Scala解释器REPL（读取-求值-打印-循环）的使用方法。REPL是Scala开发中的重要工具，能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习，读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]

蜡笔小新 2024-11-07 18:07:59
input
技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告

技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告 ... [详细]

蜡笔小新 2024-11-07 14:33:19
input
【图像分类实战】利用DenseNet在PyTorch中实现秃头识别

本文详细介绍了如何使用DenseNet模型在PyTorch框架下实现秃头识别。首先，文章概述了项目所需的库和全局参数设置。接着，对图像进行预处理并读取数据集。随后，构建并配置DenseNet模型，设置训练和验证流程。最后，通过测试阶段验证模型性能，并提供了完整的代码实现。本文不仅涵盖了技术细节，还提供了实用的操作指南，适合初学者和有经验的研究人员参考。 ... [详细]

蜡笔小新 2024-11-06 15:21:35
input
CAS 机制下的无锁队列设计与实现

CAS 机制下的无锁队列设计与实现 ... [详细]

蜡笔小新 2024-11-04 15:38:05
input
如何使用 com.jme3.input.FlyByCamera 构造函数及其代码示例详解

如何使用 com.jme3.input.FlyByCamera 构造函数及其代码示例详解 ... [详细]

蜡笔小新 2024-11-04 13:10:34
callback
深入解析 FragmentTransaction 的源码实现机制

在探讨Fragment的使用时，FragmentTransaction是不可或缺的一部分。作为管理Fragment操作的核心类，FragmentTransaction提供了诸如显示、隐藏、添加和移除等方法，这些方法在实际开发中被广泛使用。本文将深入解析FragmentTransaction的源码实现机制，帮助开发者更好地理解和优化Fragment的管理。通过分析其内部工作原理，读者可以掌握如何高效地进行Fragment的动态管理和性能优化。 ... [详细]

蜡笔小新 2024-11-02 19:57:58
hash
Java集合框架特性详解与开发实践笔记

Java集合框架特性详解与开发实践笔记 ... [详细]

蜡笔小新 2024-11-02 12:55:56

跟随自己的2502917817

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章