seleniumwire获取百度指数

作者：蟹子的宿命 | 来源：互联网 | 2023-08-31 12:13

之前我在《如何用Python下载百度指数的数据》分享了如何使用接口获取百度指数，但是今年百度指数已经增加了新的校验方式，例如如下代码：i

之前我在《如何用Python下载百度指数的数据》分享了如何使用接口获取百度指数&＃xff0c;但是今年百度指数已经增加了新的校验方式&＃xff0c;例如如下代码&＃xff1a;

import requests import json from datetime import date, timedeltaheaders &＃61; {"Connection": "keep-alive","Accept": "application/json, text/plain, */*","User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36","Sec-Fetch-Site": "same-origin","Sec-Fetch-Mode": "cors","Sec-Fetch-Dest": "empty","Referer": "https://index.baidu.com/v2/main/index.html","Accept-Language": "zh-CN,zh;q&＃61;0.9",&＃39;COOKIE&＃39;: COOKIE, }words &＃61; &＃39;[[{"name":"python","wordType":1}],[{"name":"java","wordType":1}]]&＃39; start, end &＃61; "2022-06-28", "2022-07-27" url &＃61; f&＃39;https://index.baidu.com/api/SearchApi/index?area&＃61;0&word&＃61;{words}&startDate&＃61;{start}&endDate&＃61;{end}&＃39; res &＃61; requests.get(url, headers&＃61;headers) res.json()

{&＃39;status&＃39;: 10018,&＃39;data&＃39;: &＃39;&＃39;,&＃39;logid&＃39;: 2631899650,&＃39;message&＃39;: &＃39;您好&＃xff0c;百度指数监测到疑似存在xx访问行为&＃xff0c;如您未有类似行为&＃xff0c;可能是由于您使用公共网络或访问频次过高&＃xff0c;\n 您可以通过邮箱ext_indexfk&＃64;baidu.com联系我们&＃39;}

百度指数并未返回数据&＃xff0c;而是提示访问异常访问。经简单检查&＃xff0c;现在的请求参数header中增加了Cipher-Text参数&＃xff0c;JS逆向大佬可以直接分析js从而正确产生该参数通过校验。

不过今天我将演示一个非常简单实用的获取百度指数的方案&＃xff0c;直接使用seleniumwire来获取数据并解密。

关于seleniumwire的介绍&＃xff0c;可参考我上一篇文章&＃xff1a;《selenium对接代理与seleniumwire访问开发者工具NetWork》

实现自动登录百度指数

由于selenium操作百度指数网页每次都需要登录比较麻烦&＃xff0c;我们可以在缓存COOKIE到本地文件后&＃xff0c;每次重启都能自动登录百度。

自动保存COOKIE代码&＃xff1a;

from selenium import webdriver import timebrowser &＃61; webdriver.Chrome() browser.get("https://index.baidu.com/v2/index.html") browser.find_element_by_css_selector("span.username-text").click() print("等待登录...") while True:if browser.find_element_by_css_selector("span.username-text").text !&＃61; "登录":breakelse:time.sleep(3) print("已登录&＃xff0c;现在为您保存COOKIE...") with open(&＃39;COOKIE.txt&＃39;, &＃39;w&＃39;, encoding&＃61;&＃39;u8&＃39;) as f:json.dump(browser.get_COOKIEs(), f) browser.close() print("COOKIE保存完成&＃xff0c;游览器已自动退出...")

运行以上代码后&＃xff0c;会自动打开登录界面&＃xff0c;待人工登录后&＃xff0c;会自动保存COOKIE到本地并关闭游览器。

然后我们以如下方式访问百度指数&＃xff0c;即可自动登录&＃xff1a;

from seleniumwire import webdriverbrowser &＃61; webdriver.Chrome() with open(&＃39;COOKIE.txt&＃39;, &＃39;r&＃39;, encoding&＃61;&＃39;u8&＃39;) as f:COOKIEs &＃61; json.load(f) browser.get(&＃39;https://index.baidu.com/v2/index.html&＃39;) for COOKIE in COOKIEs:browser.add_COOKIE(COOKIE) browser.get(&＃39;https://index.baidu.com/v2/index.html&＃39;)

参考&＃xff1a;《提取谷歌游览器COOKIE的五重境界》

搜索并获取数据

使游览器执行搜索特定关键字&＃xff0c;例如Python&＃xff1a;

from selenium.webdriver.common.keys import Keys from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.common.by import By from selenium.webdriver.support import expected_conditions as ECwait &＃61; WebDriverWait(browser, 30) edit &＃61; wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#search-input-form > input.search-input"))) print("清空前历史记录数&＃xff1a;", len(browser.requests)) del browser.requests # 清空历史数据 edit.send_keys(Keys.CONTROL&＃43;&＃39;a&＃39;) edit.send_keys(Keys.DELETE) edit.send_keys("Python") submit &＃61; browser.find_element_by_css_selector("span.search-input-cancle") submit.click() print("清空后再执行搜索后的历史记录数&＃xff1a;", len(browser.requests))

清空前历史记录数&＃xff1a; 87 清空后再执行搜索后的历史记录数&＃xff1a; 3

执行完搜索操作后&＃xff0c;我们就可以从游览器缓存中获取数据了&＃xff1a;

import gzip import zlib import brotli import jsondef auto_decompress(res):content_encoding &＃61; res.headers["content-encoding"]if content_encoding &＃61;&＃61; "gzip":res.body &＃61; gzip.decompress(res.body)elif content_encoding &＃61;&＃61; "deflate":res.body &＃61; zlib.decompress(res.body)elif content_encoding &＃61;&＃61; "br":res.body &＃61; brotli.decompress(res.body)def fetch_data(rule, encoding&＃61;"u8", is_json&＃61;True):result &＃61; ""for request in reversed(browser.requests):if rule in request.url:res &＃61; request.responseauto_decompress(res)result &＃61; res.body.decode(encoding)if is_json:result &＃61; json.loads(result)return resultdef decrypt(ptbk, index_data):n &＃61; len(ptbk)//2a &＃61; dict(zip(ptbk[:n], ptbk[n:]))return "".join([a[s] for s in index_data])ptbk &＃61; fetch_data("Interface/ptbk")[&＃39;data&＃39;] data &＃61; fetch_data("api/SearchApi/index")[&＃39;data&＃39;]for userIndexe in data[&＃39;userIndexes&＃39;]:name &＃61; userIndexe[&＃39;word&＃39;][0][&＃39;name&＃39;]index_data &＃61; userIndexe[&＃39;all&＃39;][&＃39;data&＃39;]r &＃61; decrypt(ptbk, index_data)print(name, r)

python 21077,21093,21186,19643,14612,13961,21733,21411,21085,21284,18591,13211,12753,27225,20302,19772,20156,17647,12018,11745,19535,19300,20075,20136,18153,12956,12406,17098,16259,18707

对比结果后可以看到&＃xff0c;数据获取正确。这样我们就可以通过seleniumwire获取百度指数的数据了&＃xff0c;若需要获取指定日期范围或指定省份&＃xff0c;只需通过selenium模拟人工执行相应的查询操作&＃xff0c;再通过游览器后台缓存获取即可。

多客户端数据的解析可以参考之前《如何用Python下载百度指数的数据》中的代码。

推荐阅读

string
Servlet 表单处理：GET 和 POST 请求的深入解析

本文详细探讨了HTML表单中GET和POST请求的区别，包括它们的工作原理、数据传输方式、安全性及适用场景。同时，通过实例展示了如何在Servlet中处理这两种请求。 ... [详细]

蜡笔小新 2024-12-23 18:09:59
string
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
go
探究同一请求在不同机器上返回不同HTTP状态码200和429的原因

本文探讨了为何相同的HTTP请求在两台不同操作系统（Windows与Ubuntu）的机器上会分别返回200 OK和429 Too Many Requests的状态码。我们将分析代码、环境差异及可能的影响因素。 ... [详细]

蜡笔小新 2024-12-21 19:35:11
select
Python爬虫实战：豆瓣电影Top250数据抓取

本文详细介绍了如何使用Python编写爬虫程序，从豆瓣电影Top250页面抓取电影信息。文章涵盖了从基础的网页请求到处理反爬虫机制，再到多页数据抓取的全过程，并提供了完整的代码示例。 ... [详细]

蜡笔小新 2024-12-27 16:55:07
io
Yii2 GridView 实现列表页数据直接编辑的完整指南

本文详细介绍了如何使用 Yii2 的 GridView 组件在列表页面实现数据的直接编辑功能。通过具体的代码示例和步骤，帮助开发者快速掌握这一实用技巧。 ... [详细]

蜡笔小新 2024-12-27 16:27:52
string
使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表

本文介绍了一段通用代码示例，该代码不仅能够操作 Azure Active Directory (AAD)，还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级：AAD 和 Subscription。 ... [详细]

蜡笔小新 2024-12-27 16:07:12
string
HTTP请求与响应机制详解

本文深入探讨了HTTP请求和响应对象的使用，详细介绍了如何通过响应对象向客户端发送数据、处理中文乱码问题以及常见的HTTP状态码。此外，还涵盖了文件下载、请求重定向、请求转发等高级功能。 ... [详细]

蜡笔小新 2024-12-23 20:40:08
io
Python处理Word文档的高效技巧

本文详细介绍了如何使用Python处理Word文档，涵盖从基础操作到高级功能的各种技巧。我们将探讨如何生成文档、定义样式、提取表格数据以及处理超链接和图片等内容。 ... [详细]

蜡笔小新 2024-12-23 10:40:32
go
采用IKE方式建立IPsec安全隧道

一、【组网和实验环境】按如上的接口ip先作配置，再作ipsec的相关配置，配置文本见文章最后本文实验采用的交换机是H3C模拟器，下载地址如 ... [详细]

蜡笔小新 2024-12-22 20:24:15
replace
如何在 Angular 6 HttpClient 中获取响应头

本文介绍如何使用 Angular 6 的 HttpClient 模块来获取 HTTP 响应头，包括代码示例和常见问题的解决方案。 ... [详细]

蜡笔小新 2024-12-22 15:33:55
utf-8
Python + Pytest 接口自动化测试中 Token 关联登录的实现方法

本文将深入探讨 Python 和 Pytest 在接口自动化测试中如何实现 Token 关联登录，内容详尽、逻辑清晰，旨在帮助读者掌握这一关键技能。 ... [详细]

蜡笔小新 2024-12-21 14:48:49
go
深入解析ESFramework中的AgileTcp组件

本文详细介绍了ESFramework框架中AgileTcp组件的设计与实现。AgileTcp是ESFramework提供的ITcp接口的高效实现，旨在优化TCP通信的性能和结构清晰度。 ... [详细]

蜡笔小新 2024-12-21 13:56:06
string
深入解析Spring Cloud Ribbon负载均衡机制

本文详细介绍了Spring Cloud中的Ribbon组件如何实现服务调用的负载均衡。通过分析其工作原理、源码结构及配置方式，帮助读者理解Ribbon在分布式系统中的重要作用。 ... [详细]

蜡笔小新 2024-12-27 16:01:25
string
深入理解Redis的数据结构与对象系统

本文详细探讨了Redis中的数据结构和对象系统的实现，包括字符串、列表、集合、哈希表和有序集合等五种核心对象类型，以及它们所使用的底层数据结构。通过分析源码和相关文献，帮助读者更好地理解Redis的设计原理。 ... [详细]

蜡笔小新 2024-12-25 04:11:22
int
使用Python urllib模块实现POST请求并爬取百度翻译结果

本文详细解析了如何使用Python的urllib模块发起POST请求，并通过实例展示如何爬取百度翻译的翻译结果。 ... [详细]

蜡笔小新 2024-12-24 18:49:24

蟹子的宿命

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章