热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

seleniumwire获取百度指数

之前我在《如何用Python下载百度指数的数据》分享了如何使用接口获取百度指数,但是今年百度指数已经增加了新的校验方式,例如如下代码:i

之前我在《如何用Python下载百度指数的数据》分享了如何使用接口获取百度指数,但是今年百度指数已经增加了新的校验方式,例如如下代码:

import requests
import json
from datetime import date, timedeltaheaders = {"Connection": "keep-alive","Accept": "application/json, text/plain, */*","User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36","Sec-Fetch-Site": "same-origin","Sec-Fetch-Mode": "cors","Sec-Fetch-Dest": "empty","Referer": "https://index.baidu.com/v2/main/index.html","Accept-Language": "zh-CN,zh;q=0.9",'COOKIE': COOKIE,
}words = '[[{"name":"python","wordType":1}],[{"name":"java","wordType":1}]]'
start, end = "2022-06-28", "2022-07-27"
url = f'https://index.baidu.com/api/SearchApi/index?area=0&word={words}&startDate={start}&endDate={end}'
res = requests.get(url, headers=headers)
res.json()

{'status': 10018,'data': '','logid': 2631899650,'message': '您好,百度指数监测到疑似存在xx访问行为,如您未有类似行为,可能是由于您使用公共网络或访问频次过高,\n 您可以通过邮箱ext_indexfk@baidu.com联系我们'}

百度指数并未返回数据,而是提示访问异常访问。经简单检查,现在的请求参数header中增加了Cipher-Text参数,JS逆向大佬可以直接分析js从而正确产生该参数通过校验。

不过今天我将演示一个非常简单实用的获取百度指数的方案,直接使用seleniumwire来获取数据并解密。

关于seleniumwire的介绍,可参考我上一篇文章:《selenium对接代理与seleniumwire访问开发者工具NetWork》

实现自动登录百度指数

由于selenium操作百度指数网页每次都需要登录比较麻烦,我们可以在缓存COOKIE到本地文件后,每次重启都能自动登录百度。

自动保存COOKIE代码:

from selenium import webdriver
import timebrowser = webdriver.Chrome()
browser.get("https://index.baidu.com/v2/index.html")
browser.find_element_by_css_selector("span.username-text").click()
print("等待登录...")
while True:if browser.find_element_by_css_selector("span.username-text").text != "登录":breakelse:time.sleep(3)
print("已登录,现在为您保存COOKIE...")
with open('COOKIE.txt', 'w', encoding='u8') as f:json.dump(browser.get_COOKIEs(), f)
browser.close()
print("COOKIE保存完成,游览器已自动退出...")

运行以上代码后,会自动打开登录界面,待人工登录后,会自动保存COOKIE到本地并关闭游览器。

然后我们以如下方式访问百度指数,即可自动登录:

from seleniumwire import webdriverbrowser = webdriver.Chrome()
with open('COOKIE.txt', 'r', encoding='u8') as f:COOKIEs = json.load(f)
browser.get('https://index.baidu.com/v2/index.html')
for COOKIE in COOKIEs:browser.add_COOKIE(COOKIE)
browser.get('https://index.baidu.com/v2/index.html')

参考:《提取谷歌游览器COOKIE的五重境界》

搜索并获取数据

使游览器执行搜索特定关键字,例如Python:

from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as ECwait = WebDriverWait(browser, 30)
edit = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#search-input-form > input.search-input")))
print("清空前历史记录数:", len(browser.requests))
del browser.requests # 清空历史数据
edit.send_keys(Keys.CONTROL+'a')
edit.send_keys(Keys.DELETE)
edit.send_keys("Python")
submit = browser.find_element_by_css_selector("span.search-input-cancle")
submit.click()
print("清空后再执行搜索后的历史记录数:", len(browser.requests))

清空前历史记录数: 87
清空后再执行搜索后的历史记录数: 3

执行完搜索操作后,我们就可以从游览器缓存中获取数据了:

import gzip
import zlib
import brotli
import jsondef auto_decompress(res):content_encoding = res.headers["content-encoding"]if content_encoding == "gzip":res.body = gzip.decompress(res.body)elif content_encoding == "deflate":res.body = zlib.decompress(res.body)elif content_encoding == "br":res.body = brotli.decompress(res.body)def fetch_data(rule, encoding="u8", is_json=True):result = ""for request in reversed(browser.requests):if rule in request.url:res = request.responseauto_decompress(res)result = res.body.decode(encoding)if is_json:result = json.loads(result)return resultdef decrypt(ptbk, index_data):n = len(ptbk)//2a = dict(zip(ptbk[:n], ptbk[n:]))return "".join([a[s] for s in index_data])ptbk = fetch_data("Interface/ptbk")['data']
data = fetch_data("api/SearchApi/index")['data']for userIndexe in data['userIndexes']:name = userIndexe['word'][0]['name']index_data = userIndexe['all']['data']r = decrypt(ptbk, index_data)print(name, r)

python 21077,21093,21186,19643,14612,13961,21733,21411,21085,21284,18591,13211,12753,27225,20302,19772,20156,17647,12018,11745,19535,19300,20075,20136,18153,12956,12406,17098,16259,18707

对比结果后可以看到,数据获取正确。这样我们就可以通过seleniumwire获取百度指数的数据了,若需要获取指定日期范围或指定省份,只需通过selenium模拟人工执行相应的查询操作,再通过游览器后台缓存获取即可。

多客户端数据的解析可以参考之前《如何用Python下载百度指数的数据》中的代码。


推荐阅读
  • 在PHP中实现腾讯云接口签名,以完成人脸核身功能的对接与签名配置时,需要注意将文档中的POST请求改为GET请求。具体步骤包括:使用你的`secretKey`生成签名字符串`$srcStr`,格式为`GET faceid.tencentcloudapi.com?`,确保参数正确拼接,避免因请求方法错误导致的签名问题。此外,还需关注API的其他参数要求,确保请求的完整性和安全性。 ... [详细]
  • 本文介绍了使用 Python 编程语言高效抓取微博文本和动态网页图像数据的方法。通过详细的示例代码,展示了如何利用爬虫技术获取微博内容和动态图片,为数据采集和分析提供了实用的技术支持。对于对网络数据抓取感兴趣的读者,本文具有较高的参考价值。 ... [详细]
  • 可转债数据智能抓取与分析平台优化
    本项目旨在优化可转债数据的智能抓取与分析平台。通过爬取集思录上的可转债信息(排除已发布赎回的债券),并结合安道全教授提出的三条安全线投资策略,新增了建仓线、加仓线和重仓线,以提供更精准的投资建议。 ... [详细]
  • 如何将Python与Excel高效结合:常用操作技巧解析
    本文深入探讨了如何将Python与Excel高效结合,涵盖了一系列实用的操作技巧。文章内容详尽,步骤清晰,注重细节处理,旨在帮助读者掌握Python与Excel之间的无缝对接方法,提升数据处理效率。 ... [详细]
  • Python 伦理黑客技术:深入探讨后门攻击(第三部分)
    在《Python 伦理黑客技术:深入探讨后门攻击(第三部分)》中,作者详细分析了后门攻击中的Socket问题。由于TCP协议基于流,难以确定消息批次的结束点,这给后门攻击的实现带来了挑战。为了解决这一问题,文章提出了一系列有效的技术方案,包括使用特定的分隔符和长度前缀,以确保数据包的准确传输和解析。这些方法不仅提高了攻击的隐蔽性和可靠性,还为安全研究人员提供了宝贵的参考。 ... [详细]
  • 利用爬虫技术抓取数据,结合Fiddler与Postman在Chrome中的应用优化提交流程
    本文探讨了如何利用爬虫技术抓取目标网站的数据,并结合Fiddler和Postman工具在Chrome浏览器中的应用,优化数据提交流程。通过详细的抓包分析和模拟提交,有效提升了数据抓取的效率和准确性。此外,文章还介绍了如何使用这些工具进行调试和优化,为开发者提供了实用的操作指南。 ... [详细]
  • 利用 Python 实现 Facebook 账号登录功能 ... [详细]
  • PyQt5 QTextEdit:深入解析Python中多功能GUI库的应用与实现
    本文详细探讨了 PyQt5 中 QTextEdit 组件在 Python 多功能 GUI 库中的应用与实现。PyQt5 是 Qt 框架的 Python 绑定,提供了超过 620 个类和 6000 个函数及方法,广泛应用于跨平台应用程序开发。QTextEdit 作为其中的重要组件,支持丰富的文本编辑功能,如富文本格式、文本高亮和自定义样式等。PyQt5 的流行性不仅在于其强大的功能,还在于其易用性和灵活性,使其成为开发复杂用户界面的理想选择。 ... [详细]
  • 技术分享:使用 Flask、AngularJS 和 Jinja2 构建高效前后端交互系统
    技术分享:使用 Flask、AngularJS 和 Jinja2 构建高效前后端交互系统 ... [详细]
  • DVWA学习笔记系列:深入理解CSRF攻击机制
    DVWA学习笔记系列:深入理解CSRF攻击机制 ... [详细]
  • 使用 ListView 浏览安卓系统中的回收站文件 ... [详细]
  • 通过使用 `pandas` 库中的 `scatter_matrix` 函数,可以有效地绘制出多个特征之间的两两关系。该函数不仅能够生成散点图矩阵,还能通过参数如 `frame`、`alpha`、`c`、`figsize` 和 `ax` 等进行自定义设置,以满足不同的可视化需求。此外,`diagonal` 参数允许用户选择对角线上的图表类型,例如直方图或密度图,从而提供更多的数据洞察。 ... [详细]
  • 本指南介绍了 `requests` 库的基本使用方法,详细解释了其七个主要函数。其中,`requests.request()` 是构建请求的基础方法,支持其他高级功能的实现。此外,我们还重点介绍了如何使用 `requests.get()` 方法来获取 HTML 网页内容,这是进行网页数据抓取和解析的重要步骤。通过这些基础方法,读者可以轻松上手并掌握网页数据抓取的核心技巧。 ... [详细]
  • 技术日志:使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告
    技术日志:使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告 ... [详细]
  • 在第10天的夜灵HTML日志中,我们深入探讨了浏览器兼容性和高级选择器的应用。CSS3引入了许多新属性,但在旧版浏览器中的支持情况并不理想。然而,目前主流浏览器的最新版本已全面支持这些新特性。对于那些不支持CSS3新属性的浏览器,我们提供了多种解决方案,以确保网站在不同环境下的兼容性和用户体验。此外,我们还详细讨论了如何利用高级选择器提升页面布局的灵活性和可维护性。 ... [详细]
author-avatar
蟹子的宿命
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有