使用BeautifulSoup防止被Google抓取禁止

作者：DHY微学院朱曜宇 | 来源：互联网 | 2023-09-17 08:05

我想用Python和BeautifulSoup制作Google新闻抓取工具，但我读过，我

我想用Python和BeautifulSoup制作Google新闻抓取工具，但我读过，我有可能被禁止。

我还读到我可以使用一些旋转代理和旋转IP地址来防止这种情况。
我唯一要做的就是旋转User-Agent。
您能告诉我如何添加旋转代理和旋转IP地址吗？

我知道应该在request.get()部分中添加它，但是我不知道如何。

这是我的代码：

from bs4 import BeautifulSoup import requests headers = {'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/47.0.2526.106 Safari/537.36'} term = 'usa' page=0 for page in range(1,5): page = page*10 url = 'https://www.google.com/search?q={}&tbm=nws&sxsrf=ACYBGNTx2Ew_5d5HsCvjwDoo5SC4U6JBVg:1574261023484&ei=H1HVXf-fHfiU1fAP65K6uAU&start={}&sa=N&ved=0ahUKEwi_q9qog_nlAhV4ShUIHWuJDlcQ8tMDCF8&biw=1280&bih=561&dpr=1.5'.format(term,page) print(url) respOnse= requests.get(url,headers=headers) soup = BeautifulSoup(response.text,'html.parser') headline_text = soup.find_all('h3',class_= "r dO0Ag") snippet_text = soup.find_all('div',class_='st') news_date = soup.find_all('div',class_='slp') print(len(news_date))

您可以使用Google提供的正确API进行搜索：

https://developers.google.com/custom-search/v1/overview

如果您想学习网页抓取，最好选择其他网站，例如reddit或一些在线杂志。 Google新闻（及其他Google服务）受到良好的保护，不会被抓取，并且它们会定期更改类的名称，以防止您通过简单的方式进行操作。

如果您的问题是“不被禁止怎么办？”，那么答案是“不要违反TOS”，这意味着完全不抓取内容并使用适当的搜索API。
根据您使用的IP地址，有一些“免费”的Google搜索用途。因此，如果您只抓取少量搜索，那应该没问题。

如果您的问题是“如何在请求模块中使用代理？”，那么您应该开始寻找here。

import requests proxies = { 'http': 'http://10.10.1.10:3128','https': 'http://10.10.1.10:1080',} requests.get('http://example.org',proxies=proxies)

但这只是python方面，您需要自己设置一个Web代理（甚至更好的代理池），然后使用一种算法，例如，每N个请求选择一个不同的代理。

您可以使用https://gimmmeproxy.com来旋转代理，它是python包装器：https://github.com/DeyaaMuhammad/GimmeProxyApi。

proxy = GimmeProxyAPI(protocol="https") proxies = { 'http': proxy,'https': proxy } requests.get('https://example.org',proxies=proxies)
,

一个更简单的技巧是在 Brave Tor 浏览器中使用 Google colab，然后查看结果，您将获得不同的 IP 地址。

因此，一旦您获得所需的数据，您就可以在 jupyter notebook、VS Code 或其他地方使用这些数据。

看，截图中的结果：

使用免费代理会出错，因为免费代理上的请求太多，因此，您必须每次都选择代理流量较低的不同代理，因此从数百个中选择一个是一项艰巨的任务。

Using free proxies will get an error because there are too many requests on the free proxies so,you have to pick every time different one whose proxy is getting lower traffic so that's a terrible task to chose one out of hundreds

使用 Brave Tor VPN 获得正确结果：
Getting correct results with Brave Tor VPN

推荐阅读

io
在 QQmlPropertyMap 的派生类中无法调用槽函数或 Q_INVOKABLE 方法？

在尝试对 QQmlPropertyMap 类进行测试驱动开发时，发现其派生类中无法正常调用槽函数或 Q_INVOKABLE 方法。这可能是由于 QQmlPropertyMap 的内部实现机制导致的，需要进一步研究以找到解决方案。 ... [详细]

蜡笔小新 2024-11-11 15:34:22
io
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
io
Android 构建基础流程详解

Android 构建基础流程详解 ... [详细]

蜡笔小新 2024-11-10 15:45:20
io
解决Only fullscreen opaque activities can request orientation错误的方法

本文介绍了在使用PictureSelectorLight第三方框架时遇到的Only fullscreen opaque activities can request orientation错误，并提供了一种有效的解决方案。 ... [详细]

蜡笔小新 2024-11-13 09:46:25
io
Java 并发编程：深入解析 AtomicInteger 和 CAS 无锁算法

在多线程并发环境中，普通变量的操作往往是线程不安全的。本文通过一个简单的例子，展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]

蜡笔小新 2024-11-12 16:40:04
io
python解决CSF布料模拟滤波的批处理问题（解决获取多个点云数据las数据）

解决问题：1、批量读取点云las数据2、点云数据读与写出3、csf滤波分类参考：https:github.comsuyunzzzCSF论文题目ÿ ... [详细]

蜡笔小新 2024-11-12 11:32:15
io
Xcode 多项目联合调试技巧与实践

在软件开发过程中，经常需要将多个项目或模块进行集成和调试，尤其是当项目依赖于第三方开源库（如Cordova、CocoaPods）时。本文介绍了如何在Xcode中高效地进行多项目联合调试，分享了一些实用的技巧和最佳实践，帮助开发者解决常见的调试难题，提高开发效率。 ... [详细]

蜡笔小新 2024-11-11 18:24:27
io
如何将Python与Excel高效结合：常用操作技巧解析

本文深入探讨了如何将Python与Excel高效结合，涵盖了一系列实用的操作技巧。文章内容详尽，步骤清晰，注重细节处理，旨在帮助读者掌握Python与Excel之间的无缝对接方法，提升数据处理效率。 ... [详细]

蜡笔小新 2024-11-11 15:18:30
io
如何使用 `org.apache.tomcat.websocket.server.WsServerContainer.findMapping()` 方法及其代码示例解析

如何使用 `org.apache.tomcat.websocket.server.WsServerContainer.findMapping()` 方法及其代码示例解析 ... [详细]

蜡笔小新 2024-11-11 10:08:55
io
利用爬虫技术抓取数据，结合Fiddler与Postman在Chrome中的应用优化提交流程

本文探讨了如何利用爬虫技术抓取目标网站的数据，并结合Fiddler和Postman工具在Chrome浏览器中的应用，优化数据提交流程。通过详细的抓包分析和模拟提交，有效提升了数据抓取的效率和准确性。此外，文章还介绍了如何使用这些工具进行调试和优化，为开发者提供了实用的操作指南。 ... [详细]

蜡笔小新 2024-11-09 09:05:16
io
Vue 页面状态管理与跨页面数据传递的有效策略

在 Vue 应用开发中，页面状态管理和跨页面数据传递是常见需求。本文将详细介绍 Vue Router 提供的两种有效方式，帮助开发者高效地实现页面间的数据交互与状态同步，同时分享一些最佳实践和注意事项。 ... [详细]

蜡笔小新 2024-11-08 12:45:14
io
第三节 Sqoop：实现数据的精准控制与高效导入

通过使用Sqoop导入工具，可以精确控制并高效地将表数据的特定子集导入到HDFS中。具体而言，可以通过在导入命令中添加WHERE子句来指定所需的数据范围，从而在数据库服务器上执行相应的SQL查询，并将查询结果高效地存储到HDFS中。这种方法不仅提高了数据导入的灵活性，还确保了数据的准确性和完整性。 ... [详细]

蜡笔小新 2024-11-11 22:58:51
io
技术分享：使用 Flask、AngularJS 和 Jinja2 构建高效前后端交互系统

技术分享：使用 Flask、AngularJS 和 Jinja2 构建高效前后端交互系统 ... [详细]

蜡笔小新 2024-11-11 15:24:24
config
服务器部署中的安全策略实践与优化

服务器部署中的安全策略实践与优化 ... [详细]

蜡笔小新 2024-11-10 13:04:30
io
如何在PHP中计算腾讯云接口签名，实现人脸核身接口的对接与签名配置

在PHP中实现腾讯云接口签名，以完成人脸核身功能的对接与签名配置时，需要注意将文档中的POST请求改为GET请求。具体步骤包括：使用你的`secretKey`生成签名字符串`$srcStr`，格式为`GET faceid.tencentcloudapi.com?`，确保参数正确拼接，避免因请求方法错误导致的签名问题。此外，还需关注API的其他参数要求，确保请求的完整性和安全性。 ... [详细]

蜡笔小新 2024-11-08 21:58:28

DHY微学院朱曜宇

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章