python3使用代理ip访问指定网站

作者：大苏打的苏打水 | 来源：互联网 | 2023-10-10 10:27

python3使用代理ip访问指定网站,Go语言社区,Golang程序员人脉社

首先要找一个可以提供代理ip的网站，然后爬下网站上的ip地址和端口号。最后用爬取出来的ip做代理访问指定网站。

关键地方我用红色箭头标注出来了。分页解析代码如下

def getProxyIp():
    proxy = []
    for i in range(1, 3):
        print(i)
        header = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) '
                                           'AppleWebKit/537.36 (KHTML, like Gecko) '
                                               'Ubuntu Chromium/44.0.2403.89 '
                                               'Chrome/44.0.2403.89 '
                                               'Safari/537.36'}
        req = urllib.request.Request(url='http://www.xicidaili.com/nt/{0}'.format(i), headers=header)
        r = urllib.request.urlopen(req)
        soup = BeautifulSoup(r,'html.parser',from_encoding='utf-8')
        table = soup.find('table', attrs={'id': 'ip_list'})
        tr = table.find_all('tr')[1:]
        #解析得到代理ip的地址，端口，和类型
        for item in tr:
            tds =  item.find_all('td')
            temp_dict = {}
            kind = "{0}:{1}".format(tds[1].get_text().lower(), tds[2].get_text())
            proxy.append(kind)
    return proxy

head是模仿浏览器请求。将最后解析出来ip和端口号的结果放在proxy里面。然后开始用代理访问指定网站。

        proxy_handler = urllib.request.ProxyHandler({'http': proxy_dict})
        opener = urllib.request.build_opener(proxy_handler)
        urllib.request.install_opener(opener)
        req = urllib.request.Request(url="http://blog.csdn.net/u013692888/article/details/52714103", headers=header)
        urllib.request.urlopen(req)

源码地址https://github.com/Ahuanghaifeng/python3-ip

推荐阅读

python
python翻译程序编写模板_python爬虫编写英译中小程序

1.选择一个翻译页面，我选择的是有道词典(http:dict.youdao.com)2.随便输入一个英语单词进行翻译，然后查看源文件，找到 ... [详细]

蜡笔小新 2024-11-29 12:52:41
python
Python 爬虫实战：知乎美腿图片抓取

本文介绍如何使用Python编写一个简单的爬虫程序，从知乎问题页面抓取美腿图片。环境配置包括Windows 10操作系统，Python语言及其相关库。 ... [详细]

蜡笔小新 2024-12-02 09:30:45
python
探究同一请求在不同机器上返回不同HTTP状态码200和429的原因

本文探讨了为何相同的HTTP请求在两台不同操作系统（Windows与Ubuntu）的机器上会分别返回200 OK和429 Too Many Requests的状态码。我们将分析代码、环境差异及可能的影响因素。 ... [详细]

蜡笔小新 2024-12-21 19:35:11
runtime
解决编译BSP包时遇到的 'gets' 未声明错误

在编译BSP包过程中，遇到了一个与 'gets' 函数相关的编译错误。该问题通常发生在较新的编译环境中，由于 'gets' 函数已被弃用并视为安全漏洞。本文将详细介绍如何通过修改源代码和配置文件来解决这一问题。 ... [详细]

蜡笔小新 2024-12-21 11:21:05
python
Python + Pytest 接口自动化测试中 Token 关联登录的实现方法

本文将深入探讨 Python 和 Pytest 在接口自动化测试中如何实现 Token 关联登录，内容详尽、逻辑清晰，旨在帮助读者掌握这一关键技能。 ... [详细]

蜡笔小新 2024-12-21 14:48:49
web
Python自动化测试入门：Selenium环境搭建

本文详细介绍如何在Python环境中安装和配置Selenium，包括开发工具PyCharm的安装、Python环境的设置以及Selenium包的安装方法。此外，还提供了编写和运行第一个自动化测试脚本的步骤。 ... [详细]

蜡笔小新 2024-12-21 10:48:56
config
在Node.js中利用SOCKS5代理进行HTTP请求

本文探讨了如何在Node.js环境中，通过Tor网络使用的SOCKS5代理执行HTTP请求。文中不仅提供了基础的实现方法，还介绍了几种常用的库和工具，帮助开发者解决遇到的问题。 ... [详细]

蜡笔小新 2024-12-17 15:05:06
python
Scrapy中的信号机制

本文档详细介绍了Scrapy框架中的信号系统，包括如何利用信号来增强爬虫的功能性和灵活性，以及各个内置信号的具体用途和参数。 ... [详细]

蜡笔小新 2024-12-16 21:00:06
get
使用Bootstrap创建响应式渐变固定头部导航栏的方法

本文详细介绍了如何利用Bootstrap框架构建一个具有渐变效果的固定顶部响应式导航栏，包括HTML结构、CSS样式以及JavaScript交互的完整实现过程。适合前端开发者和学习者参考。 ... [详细]

蜡笔小新 2024-12-12 18:04:25
jar
远程访问用户 Kindle通过电子书实现控制

介绍自2007年以来，亚马逊已售出数千万台Kindle，令人印象深刻。但这也意味着数以千万计的人可能会因为这些Kindle中的软件漏洞而被黑客入侵。他 ... [详细]

蜡笔小新 2024-11-29 07:58:24
require
探索HTML5：十五个关键的新特性

本文深入探讨了HTML5中十五个重要的新特性，为开发者提供了详细的指南。 ... [详细]

蜡笔小新 2024-11-26 19:09:22
timestamp
如何在 Angular 6 HttpClient 中获取响应头

本文介绍如何使用 Angular 6 的 HttpClient 模块来获取 HTTP 响应头，包括代码示例和常见问题的解决方案。 ... [详细]

蜡笔小新 2024-12-22 15:33:55
get
使用Fetch进行HTTP请求的基本示例

本文介绍了如何使用JavaScript的Fetch API与Express服务器进行交互，涵盖了GET、POST、PUT和DELETE请求的实现，并展示了如何处理JSON响应。 ... [详细]

蜡笔小新 2024-12-22 12:55:37
get
使用预处理器开关确定类的版本

本文探讨了如何通过预处理器开关选择不同的类实现，并解决在特定情况下遇到的链接器错误。 ... [详细]

蜡笔小新 2024-12-22 12:03:31
web
使用 NDB 提升 Node.js 应用调试体验

本文介绍了由 Google Chrome 实验室推出的新一代 Node.js 调试工具 NDB，旨在为开发者提供更加高效和便捷的调试解决方案。 ... [详细]

蜡笔小新 2024-12-02 20:52:15

大苏打的苏打水

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章