python模拟用户点击浏览器_Python实现模拟浏览器登录操作

作者：看具戴_370 | 来源：互联网 | 2023-08-28 18:30

最近帮朋友写一个脚本，用来刷新信息。具体的操作就是模拟用户登录之后，在用户的信息发布页面，对每一个页面，在固定的时间间隔内点

最近帮朋友写一个脚本&＃xff0c;用来刷新信息。具体的操作就是模拟用户登录之后&＃xff0c;在用户的信息发布页面&＃xff0c;对每一个页面&＃xff0c;在固定的时间间隔内点击刷新按钮。我使用Python3 和 Requests库来实现了这个功能。Requests 是用基于 urllib&＃xff0c;采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便&＃xff0c;可以节约我们大量的工作&＃xff0c;完全满足 HTTP 测试需求。我们使用他的原因是他能更加方便的保存Session信息。

流程&＃xff1a;

1. 解析页面表单构成&＃xff0c;获取请求的头信息

2. 模拟浏览器登录

3. 保存Session&＃xff0c;进入用户中心。

4. 解析页面&＃xff0c;获取需要更新的页面。

5. 对每个页面的刷新按钮发起请求。

6. 休眠计时。

解析登录页面&＃xff1a;

首先打开登录页面&＃xff0c;通过chrome来审查表单结构与Request Headers的信息。根据信息来构建登陆时的提交头文件与登录信息。

模拟浏览器发起请求的头信息&＃xff1a;

headers1 &＃61; {

&＃39;Accept&＃39;: &＃39;text/html,application/xhtml&＃43;xml,application/xml;q&＃61;0.9,image/webp,image/apng,*/*;q&＃61;0.8&＃39;,

&＃39;User-Agent&＃39;: &＃39;Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36&＃39;,

&＃39;Content-Type&＃39;: &＃39;application/x-www-form-urlencoded&＃39;,

&＃39;Origin&＃39;: &＃39;https://www.shicheng.one&＃39;,

&＃39;Referer&＃39;: &＃39;https://www.shicheng.one/user/login&＃39;,

&＃39;Upgrade-Insecure-Requests&＃39;: &＃39;1&＃39;

}

用户登录表单&＃xff0c;其中csrf是用户每次发起请求时动态生成的&＃xff1a;

payload &＃61; {

"LoginForm[username]": "username",

"LoginForm[password]": "password",

"LoginForm[rememberMe]": 0,

"_csrf": "csrf"

}

动态获取CSRF

当我们每次向目标地址发起一个Request请求时&＃xff0c;表单内部会动态生成一个csrf口令&＃xff0c;并将其与html页面内容一起返回&＃xff0c;因此我们可以通过解析页面内容来获取csrf口令。这里我们使用HTMLlParser来找到_csrf标签对应的内容。

class Myparser(HTMLParser):

def __init__(self):

HTMLParser.__init__(self)

self.values &＃61; 0

def handle_starttag(self, tag, attrs):

def _attr(attrlist, attrname):

for each in attrlist:

if attrname &＃61;&＃61; each[0]:

return each[1]

return None

if tag &＃61;&＃61; &＃39;input&＃39; and _attr(attrs, &＃39;name&＃39;) &＃61;&＃61; &＃39;_csrf&＃39;:

self.values &＃61; _attr(attrs, &＃39;value&＃39;)

def get_csrf(login):

data &＃61; login.text

par &＃61; Myparser()

par.feed(data)

return par.values

模拟浏览器登录

我们使用requests库实例化一个会话&＃xff0c;然后使用我们构建的表单内容与Headers来进行登录&＃xff0c;其中csrf是动态获取的。这样我们的信息就会被保存在这个对象中。

session_requests &＃61; requests.Session()

csrf &＃61; get_csrf(login)

payload["_csrf"] &＃61; csrf

为了检查是否请求成功&＃xff0c;可以查看请求发回的状态码

解析用户页面并发起请求

在访问用户信息页面并刷新时&＃xff0c;我们使用下面的头文件发起请求&＃xff0c;其中referer是根据我们要访问的地址动态更新的。

headers2 &＃61; {

&＃39;Accept&＃39;: &＃39;text/html,application/xhtml&＃43;xml,application/xml;q&＃61;0.9,image/webp,image/apng,*/*;q&＃61;0.8&＃39;,

&＃39;User-Agent&＃39;: &＃39;Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36&＃39;,

&＃39;Content-Type&＃39;: &＃39;application/x-www-form-urlencoded&＃39;,

&＃39;Referer&＃39;: &＃39;&＃39;,

&＃39;Upgrade-Insecure-Requests&＃39;: &＃39;1&＃39;

}

home是我们要访问的用户信息页面&＃xff0c;我们从中提取列表中的网址&＃xff0c;并解析出id。其中每个页面的内的刷新按钮是与对应的js相关联的&＃xff0c;因为我们通过前面固定的网址与id动态构建出刷新请求的地址。最后我们按照刷新的cd&＃xff0c;使用更新后的Headers发起刷新请求。

getstat &＃61; session_requests.get(home)

urls &＃61; list(set(re.findall(pattern1, getstat.text)))

ids &＃61; [re.findall(pattern2, url)[1] for url in urls]

refresh &＃61; ["https://www.shicheng.one/node/refresh?id&＃61;" &＃43; i for i in ids]

while True:

for r, url in zip(refresh, urls):

headers2[&＃39;Referer&＃39;] &＃61; url

getstat &＃61; session_requests.get(r, headers&＃61;headers2)

print(&＃39;Refresh at &＃39; &＃43; time.strftime("%Y-%m-%d %H:%M:%S", time.localtime()))

time.sleep(6 * 60 * 60)

完整代码

# coding: utf8

import re

import time

import requests

from html.parser import HTMLParser

class Myparser(HTMLParser):

def __init__(self):

HTMLParser.__init__(self)

self.values &＃61; 0

def handle_starttag(self, tag, attrs):

def _attr(attrlist, attrname):

for each in attrlist:

if attrname &＃61;&＃61; each[0]:

return each[1]

return None

if tag &＃61;&＃61; &＃39;input&＃39; and _attr(attrs, &＃39;name&＃39;) &＃61;&＃61; &＃39;_csrf&＃39;:

self.values &＃61; _attr(attrs, &＃39;value&＃39;)

def get_csrf(login):

data &＃61; login.text

par &＃61; Myparser()

par.feed(data)

return par.values

def run():

print("Press &＃39;Ctrl&＃43;C&＃39; to exit...")

rule1 &＃61; r&＃39;http://www\.shicheng\.one/s1/\d&＃43;&＃39;

pattern1 &＃61; re.compile(rule1)

pattern2 &＃61; re.compile(r&＃39;\d&＃43;&＃39;)

login_url &＃61; &＃39;https://www.shicheng.one/user/login&＃39;

home &＃61; &＃39;https://www.shicheng.one/member/index?id&＃61;16973&＃39;

headers1 &＃61; {

&＃39;Accept&＃39;: &＃39;text/html,application/xhtml&＃43;xml,application/xml;q&＃61;0.9,image/webp,image/apng,*/*;q&＃61;0.8&＃39;,

&＃39;User-Agent&＃39;: &＃39;Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36&＃39;,

&＃39;Content-Type&＃39;: &＃39;application/x-www-form-urlencoded&＃39;,

&＃39;Origin&＃39;: &＃39;https://www.shicheng.one&＃39;,

&＃39;Referer&＃39;: &＃39;https://www.shicheng.one/user/login&＃39;,

&＃39;Upgrade-Insecure-Requests&＃39;: &＃39;1&＃39;

}

headers2 &＃61; {

&＃39;Accept&＃39;: &＃39;text/html,application/xhtml&＃43;xml,application/xml;q&＃61;0.9,image/webp,image/apng,*/*;q&＃61;0.8&＃39;,

&＃39;User-Agent&＃39;: &＃39;Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36&＃39;,

&＃39;Content-Type&＃39;: &＃39;application/x-www-form-urlencoded&＃39;,

&＃39;Referer&＃39;: &＃39;&＃39;,

&＃39;Upgrade-Insecure-Requests&＃39;: &＃39;1&＃39;

}

payload &＃61; {

"LoginForm[username]": "username",

"LoginForm[password]": "password",

"LoginForm[rememberMe]": 0,

"_csrf": ""

}

session_requests &＃61; requests.Session()

csrf &＃61; get_csrf(login)

payload["_csrf"] &＃61; csrf

getstat &＃61; session_requests.get(home)

urls &＃61; list(set(re.findall(pattern1, getstat.text)))

ids &＃61; [re.findall(pattern2, url)[1] for url in urls]

refresh &＃61; ["https://www.shicheng.one/node/refresh?id&＃61;" &＃43; i for i in ids]

while True:

for r, url in zip(refresh, urls):

headers2[&＃39;Referer&＃39;] &＃61; url

getstat &＃61; session_requests.get(r, headers&＃61;headers2)

print(&＃39;Refresh at &＃39; &＃43; time.strftime("%Y-%m-%d %H:%M:%S", time.localtime()))

time.sleep(6 * 60 * 60)

if __name__ &＃61;&＃61; &＃39;__main__&＃39;:

run()

推荐阅读

post
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
list
用阿里云的免费 SSL 证书让网站从 HTTP 换成 HTTPS

HTTP协议是不加密传输数据的，也就是用户跟你的网站之间传递数据有可能在途中被截获，破解传递的真实内容，所以使用不加密的HTTP的网站是不 ... [详细]

蜡笔小新 2024-11-13 14:02:50
function
在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解

在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解 ... [详细]

蜡笔小新 2024-11-11 17:28:29
md5
DVWA学习笔记系列：深入理解CSRF攻击机制

DVWA学习笔记系列：深入理解CSRF攻击机制 ... [详细]

蜡笔小新 2024-11-11 13:19:51
function
技术分享：使用 Flask、AngularJS 和 Jinja2 构建高效前后端交互系统

技术分享：使用 Flask、AngularJS 和 Jinja2 构建高效前后端交互系统 ... [详细]

蜡笔小新 2024-11-11 15:24:24
int
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40
char
深入解析HTML5字符集属性：charset与defaultCharset

本文将详细介绍HTML5中新增的字符集属性charset和defaultCharset，帮助开发者更好地理解和应用这些属性，以确保网页在不同环境下的正确显示。 ... [详细]

蜡笔小新 2024-11-13 11:09:46
int
Spring详解（六）AOP

原文网址：https:www.cnblogs.comysoceanp7476379.html目录1、AOP什么？2、需求3、解决办法1:使用静态代理4 ... [详细]

蜡笔小新 2024-11-12 14:40:40
int
php更新数据库字段的函数是,php更新数据库字段的函数是

php更新数据库字段的函数是,php更新数据库字段的函数是 ... [详细]

蜡笔小新 2024-11-12 11:37:31
int
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
js
深入解析Struts、Spring与Hibernate三大框架的面试要点与技巧

深入解析Struts、Spring与Hibernate三大框架的面试要点与技巧 ... [详细]

蜡笔小新 2024-11-11 13:09:30
js
Webdriver中元素定位的多种技术与策略

在Webdriver中，元素定位是自动化测试的关键环节。本文详细介绍了8种常用的元素定位技术与策略，包括ID、名称、标签名、类名、链接文本、部分链接文本、XPath和CSS选择器。每种方法都有其独特的优势和适用场景，通过合理选择和组合使用，可以显著提高测试脚本的稳定性和效率。此外，文章还探讨了在复杂页面结构中如何灵活运用这些定位技术，以应对各种挑战。 ... [详细]

蜡笔小新 2024-11-11 11:34:38
int
如何使用 `org.apache.tomcat.websocket.server.WsServerContainer.findMapping()` 方法及其代码示例解析

如何使用 `org.apache.tomcat.websocket.server.WsServerContainer.findMapping()` 方法及其代码示例解析 ... [详细]

蜡笔小新 2024-11-11 10:08:55
int
使用JDBC实现ActiveMQ消息持久化机制深入解析

本文深入解析了通过JDBC实现ActiveMQ消息持久化的机制。JDBC能够将消息可靠地存储在多种关系型数据库中，如MySQL、SQL Server、Oracle和DB2等。采用JDBC持久化方式时，数据库会自动生成三个关键表：`activemq_msgs`、`activemq_lock`和`activemq_ACKS`，分别用于存储消息数据、锁定信息和确认状态。这种机制不仅提高了消息的可靠性，还增强了系统的可扩展性和容错能力。 ... [详细]

蜡笔小新 2024-11-10 14:41:02
header
如何通过登录PHP网站实现校园内外差异化访问：内部免费而外部需付费

该大学网站采用PHP和MySQL技术，在校内可免费访问某些外部收费资料数据库。为了方便学生校外访问，建议通过学校账号登录实现免费访问。具体方案可包括利用学校服务器作为代理，结合身份验证机制，确保合法用户在校外也能享受免费资源。 ... [详细]

蜡笔小新 2024-11-10 03:11:33

看具戴_370

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章