热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

python模拟用户点击浏览器_Python实现模拟浏览器登录操作

最近帮朋友写一个脚本,用来刷新信息。具体的操作就是模拟用户登录之后,在用户的信息发布页面,对每一个页面,在固定的时间间隔内点

最近帮朋友写一个脚本,用来刷新信息。具体的操作就是模拟用户登录之后,在用户的信息发布页面,对每一个页面,在固定的时间间隔内点击刷新按钮。我使用Python3 和 Requests库来实现了这个功能。Requests 是用基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便,可以节约我们大量的工作,完全满足 HTTP 测试需求。我们使用他的原因是他能更加方便的保存Session信息。

流程:

1. 解析页面表单构成,获取请求的头信息

2. 模拟浏览器登录

3. 保存Session,进入用户中心。

4. 解析页面,获取需要更新的页面。

5. 对每个页面的刷新按钮发起请求。

6. 休眠计时。

解析登录页面:

首先打开登录页面,通过chrome来审查表单结构与Request Headers的信息。根据信息来构建登陆时的提交头文件与登录信息。

模拟浏览器发起请求的头信息:

headers1 = {

'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',

'Content-Type': 'application/x-www-form-urlencoded',

'Origin': 'https://www.shicheng.one',

'Referer': 'https://www.shicheng.one/user/login',

'Upgrade-Insecure-Requests': '1'

}

用户登录表单,其中csrf是用户每次发起请求时动态生成的:

payload = {

"LoginForm[username]": "username",

"LoginForm[password]": "password",

"LoginForm[rememberMe]": 0,

"_csrf": "csrf"

}

动态获取CSRF

当我们每次向目标地址发起一个Request请求时,表单内部会动态生成一个csrf口令,并将其与html页面内容一起返回,因此我们可以通过解析页面内容来获取csrf口令。这里我们使用HTMLlParser来找到_csrf标签对应的内容。

class Myparser(HTMLParser):

def __init__(self):

HTMLParser.__init__(self)

self.values = 0

def handle_starttag(self, tag, attrs):

def _attr(attrlist, attrname):

for each in attrlist:

if attrname == each[0]:

return each[1]

return None

if tag == 'input' and _attr(attrs, 'name') == '_csrf':

self.values = _attr(attrs, 'value')

def get_csrf(login):

data = login.text

par = Myparser()

par.feed(data)

return par.values

模拟浏览器登录

我们使用requests库实例化一个会话,然后使用我们构建的表单内容与Headers来进行登录,其中csrf是动态获取的。这样我们的信息就会被保存在这个对象中。

session_requests = requests.Session()

login = session_requests.get(login_url)

csrf = get_csrf(login)

payload["_csrf"] = csrf

login = session_requests.post(login_url, data=payload, headers=headers1)

为了检查是否请求成功,可以查看请求发回的状态码

login.status_code

解析用户页面并发起请求

在访问用户信息页面并刷新时,我们使用下面的头文件发起请求,其中referer是根据我们要访问的地址动态更新的。

headers2 = {

'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',

'Content-Type': 'application/x-www-form-urlencoded',

'Referer': '',

'Upgrade-Insecure-Requests': '1'

}

home是我们要访问的用户信息页面,我们从中提取列表中的网址,并解析出id。其中每个页面的内的刷新按钮是与对应的js相关联的,因为我们通过前面固定的网址与id动态构建出刷新请求的地址。最后我们按照刷新的cd,使用更新后的Headers发起刷新请求。

getstat = session_requests.get(home)

urls = list(set(re.findall(pattern1, getstat.text)))

ids = [re.findall(pattern2, url)[1] for url in urls]

refresh = ["https://www.shicheng.one/node/refresh?id=" + i for i in ids]

while True:

for r, url in zip(refresh, urls):

headers2['Referer'] = url

getstat = session_requests.get(r, headers=headers2)

print('Refresh at ' + time.strftime("%Y-%m-%d %H:%M:%S", time.localtime()))

time.sleep(6 * 60 * 60)

完整代码

# coding: utf8

import re

import time

import requests

from html.parser import HTMLParser

class Myparser(HTMLParser):

def __init__(self):

HTMLParser.__init__(self)

self.values = 0

def handle_starttag(self, tag, attrs):

def _attr(attrlist, attrname):

for each in attrlist:

if attrname == each[0]:

return each[1]

return None

if tag == 'input' and _attr(attrs, 'name') == '_csrf':

self.values = _attr(attrs, 'value')

def get_csrf(login):

data = login.text

par = Myparser()

par.feed(data)

return par.values

def run():

print("Press 'Ctrl+C' to exit...")

rule1 = r'http://www\.shicheng\.one/s1/\d+'

pattern1 = re.compile(rule1)

pattern2 = re.compile(r'\d+')

login_url = 'https://www.shicheng.one/user/login'

home = 'https://www.shicheng.one/member/index?id=16973'

headers1 = {

'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',

'Content-Type': 'application/x-www-form-urlencoded',

'Origin': 'https://www.shicheng.one',

'Referer': 'https://www.shicheng.one/user/login',

'Upgrade-Insecure-Requests': '1'

}

headers2 = {

'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',

'Content-Type': 'application/x-www-form-urlencoded',

'Referer': '',

'Upgrade-Insecure-Requests': '1'

}

payload = {

"LoginForm[username]": "username",

"LoginForm[password]": "password",

"LoginForm[rememberMe]": 0,

"_csrf": ""

}

session_requests = requests.Session()

login = session_requests.get(login_url)

csrf = get_csrf(login)

payload["_csrf"] = csrf

login = session_requests.post(login_url, data=payload, headers=headers1)

getstat = session_requests.get(home)

urls = list(set(re.findall(pattern1, getstat.text)))

ids = [re.findall(pattern2, url)[1] for url in urls]

refresh = ["https://www.shicheng.one/node/refresh?id=" + i for i in ids]

while True:

for r, url in zip(refresh, urls):

headers2['Referer'] = url

getstat = session_requests.get(r, headers=headers2)

print('Refresh at ' + time.strftime("%Y-%m-%d %H:%M:%S", time.localtime()))

time.sleep(6 * 60 * 60)

if __name__ == '__main__':

run()



推荐阅读
  • Windows下配置PHP5.6的方法及注意事项
    本文介绍了在Windows系统下配置PHP5.6的步骤及注意事项,包括下载PHP5.6、解压并配置IIS、添加模块映射、测试等。同时提供了一些常见问题的解决方法,如下载缺失的msvcr110.dll文件等。通过本文的指导,读者可以轻松地在Windows系统下配置PHP5.6,并解决一些常见的配置问题。 ... [详细]
  • YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程
    本文介绍了关于人工智能、神经网络和深度学习的知识点,并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说,YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容,以及选择模型的优化思路。 ... [详细]
  • 本文介绍了在SpringBoot中集成thymeleaf前端模版的配置步骤,包括在application.properties配置文件中添加thymeleaf的配置信息,引入thymeleaf的jar包,以及创建PageController并添加index方法。 ... [详细]
  • Python瓦片图下载、合并、绘图、标记的代码示例
    本文提供了Python瓦片图下载、合并、绘图、标记的代码示例,包括下载代码、多线程下载、图像处理等功能。通过参考geoserver,使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法,供读者参考使用。 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • VScode格式化文档换行或不换行的设置方法
    本文介绍了在VScode中设置格式化文档换行或不换行的方法,包括使用插件和修改settings.json文件的内容。详细步骤为:找到settings.json文件,将其中的代码替换为指定的代码。 ... [详细]
  • 这是原文链接:sendingformdata许多情况下,我们使用表单发送数据到服务器。服务器处理数据并返回响应给用户。这看起来很简单,但是 ... [详细]
  • 如何去除Win7快捷方式的箭头
    本文介绍了如何去除Win7快捷方式的箭头的方法,通过生成一个透明的ico图标并将其命名为Empty.ico,将图标复制到windows目录下,并导入注册表,即可去除箭头。这样做可以改善默认快捷方式的外观,提升桌面整洁度。 ... [详细]
  • 本文介绍了数据库的存储结构及其重要性,强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离,可以实现对物理存储的重新组织和数据库的迁移,而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构,并介绍了表空间的概念和作用。 ... [详细]
  • android listview OnItemClickListener失效原因
    最近在做listview时发现OnItemClickListener失效的问题,经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效,还会导致单击后listview每个item的背景改变,使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况,并提供了解决方法。 ... [详细]
  • t-io 2.0.0发布-法网天眼第一版的回顾和更新说明
    本文回顾了t-io 1.x版本的工程结构和性能数据,并介绍了t-io在码云上的成绩和用户反馈。同时,还提到了@openSeLi同学发布的t-io 30W长连接并发压力测试报告。最后,详细介绍了t-io 2.0.0版本的更新内容,包括更简洁的使用方式和内置的httpsession功能。 ... [详细]
  • 使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]
  • 本文介绍了Android 7的学习笔记总结,包括最新的移动架构视频、大厂安卓面试真题和项目实战源码讲义。同时还分享了开源的完整内容,并提醒读者在使用FileProvider适配时要注意不同模块的AndroidManfiest.xml中配置的xml文件名必须不同,否则会出现问题。 ... [详细]
  • 使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例
    本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤,可以获取到网站首页的新闻数据。代码示例使用Python编写,并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]
  • r2dbc配置多数据源
    R2dbc配置多数据源问题根据官网配置r2dbc连接mysql多数据源所遇到的问题pom配置可以参考官网,不过我这样配置会报错我并没有这样配置将以下内容添加到pom.xml文件d ... [详细]
author-avatar
看具戴_370
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有