热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

pythonclick()打开新网页_网页自动化开发(第三章)

Selenium常用功能在前面的内容中,大成带您已经学习Selenium的基本使用方法,掌握了如何启动浏览器(ghrome浏览器,当然也可

9707a1d8671227feac148984659523a9.png

 Selenium常用功能

在前面的内容中,大成带您已经学习Selenium的基本使用方法,掌握了如何启动浏览器(ghrome浏览器,当然也可用ie和firefox)、查找并定位网页元素以及网页元素的操控。本节中,我们讲述Selenium的一些常用功能,如设置浏览器的参数、浏览器多窗口切换、设置等待时间、文件的上传与下载、COOKIEs处理以及frame框架操作。设置浏览器的参数是在定义driver的时候设置chrome_options参数,该参数是一个Options类所实例化的对象。其中常用的参数是设置浏览器是否可视化和浏览器的请求头等信息,前者可以加快代码的运行速度,后者可以有效地防止网站的反爬虫检测。具体的代码如下:line(17-20)

#!/usr/bin/python# -*- coding: UTF-8 -*-import jsonimport timeimport seleniumfrom selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsfrom selenium.webdriver.support.wait import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.common.by import Byclass GetSessionAndToken(): def __init__(self): chrome_options = Options() chrome_options.add_argument('accept=application/json, text/plain, */*') chrome_options.add_argument('accept-language=en-US,en;q=0.9')        UserAgent = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36' chrome_options.add_argument('User-Agent=' + UserAgent) self.driver = webdriver.Chrome(chrome_options=chrome_options)    #登录时候,最好加上time.sleep(),本地网络比较差,加上了延时 # 登录系统,具体到自己系统时需要自行修改 def login_system(self): try: url = 'https://portal.taobao-qa.com/' self.driver.maximize_window() # driver.minimize_window() self.driver.get(url) time.sleep(10) # '/html/body/div[3]/div/div/div/div[2]/div[2]/div/div/div[3]/button' self.driver.find_element_by_xpath( '/html/body/div[3]/div/div/div/div[2]/div[2]/div/div/div[3]/button').click() time.sleep(10) # 输入邮箱            self.driver.find_element_by_xpath('//*[@id="i0116"]').send_keys('taobao@tianmao.com') time.sleep(10) # Next self.driver.find_element_by_xpath('//*[@id="idSIButton9"]').click() time.sleep(10) self.driver.find_element_by_xpath('//*[@id="i0118"]').send_keys('XXXXXXX') time.sleep(10) # sign in self.driver.find_element_by_xpath('//*[@id="idSIButton9"]').click() time.sleep(5) # yes self.driver.find_element_by_xpath('//*[@id="idSIButton9"]').click() time.sleep(5) print(self.driver.get_COOKIEs()); # print(COOKIEs) # COOKIEs = driver.get_COOKIE('AuthSessionId') # print(COOKIEs) except selenium.common.exceptions.NoSuchElementException: print("Error Message: no such element: Unable to locate element") def get_sessionid(self): # 是要从localStorage中获取还是要从sessionStorage中获取,具体看目标系统存到哪个中 # window.sessionStorage和直接写sessionStorage是等效的 # 一定要使用return,不然获取到的一直是None # get的Item不一定就叫sessionId,得具体看目标系统把sessionid存到哪个变量中 sessionid = self.driver.execute_script('return Storage.COOKIEs("AuthSessionId");') return sessionid # 获取token def get_token(self): # 是要从localStorage中获取还是要从sessionStorage中获取,具体看目标系统存到哪个中 # window.sessionStorage和直接写sessionStorage是等效的 # 一定要使用return,不然获取到的一直是None # get的Item不一定就叫token,得具体看目标系统把token存到哪个变量中 token = self.driver.execute_script('return sessionStorage.getItem("token");') # print(f"{token}") return token def __del__(self): # 退出程序时关闭浏览器 self.driver.close()if __name__ == "__main__": obj = GetSessionAndToken() obj.login_system()

上面代码基本都在一个界面下完成,打开浏览器,有时候会有多个新的页面打开,那么就需要通过Selenium的切换不同的页面来完成

例如:分别打开2个窗口,中间进行切换

def changepage(self): url = "https://www.iqiyi.com/" # 爱奇艺首页 self.driver.get(url) #百度窗口首页 js = 'window.open("http://www.baidu.com")' self.driver.execute_script(js)        # 获取当前显示的窗口信息        current_windows = self.driver.current_window_handle # 获取浏览器的全部窗口信息 self.handles = self.driver.window_handles # 设置延时 time.sleep(3) self.driver.switch_to_window(self.handles[0]) time.sleep(3) self.driver.switch_to_window(self.handles[1])

cf21bd9e0ca957648daad3d383a2f5ab.png

6和7行,定义了js的定义,execute_script的方法,浏览器很多是用到Javascript来实现,功能是很强大的。selenium的运行速度往往比网页快,这里加上了sleep()等待时间,让Selenium与网页响应尽量的达到同步。延时用Python中的time库的sleep实现。也可以设置隐形等待,

driver.implicitly_wait(30)上面设置30秒等待时间,网页只要在30秒内完成加载就会执行下一步,如果超过30秒,就会抛出异常,隐形设置时间,设置这个driver周期来作用的,只要设置一次就可以。

显性等待能够根据判断条件而进行灵活地等待,程序每隔一段时间检测一次,如果检测结果与条件成立了,则执行下一步,否则继续等待,直到超过设置的最长时间为止,然后抛出TimeoutException异常。显性等待的使用涉及到多个模块,包括By、expected_conditions和WebDriverWait,各个模块说明如下。

  •  By:设置元素定位方式

定位方式共8种:

ID、XPATH、LINK_TEXT、PARTIAL_LINK_TEXT、NAME、TAG_NAME、CLASS_NAME、CSS_SELECTOR。

expected_conditions:验证网页元素是否存在,提供了多种验证方式。

  • WebDriverWait的参数说明如下。

  • driver:浏览器对象driver。

  • timeout:超时时间,等待的最长时间。

  • poll_frequency:检测时间的间隔。

  • ignored_exceptions:忽略的异常,如果在调用until或until_not的过程中抛出的异常在这个参数里,则不中断代码,继续等待,如果抛出的异常在这个参数之外,则中断代码并抛出异常。默认值为NoSuchElementException。

  • until:条件判断,参数必须为expected_conditions对象。如果网页里某个元素与条件符合,则中断等待并执行下一个步骤。

  • until_not:与until的逻辑相反。

隐性等待和显性等待相比于time.sleep这种强制等待更为灵活和智能,可解决各种网络延误的问题,隐性等待和显性等待可以同时使用,但最长的等待时间取决于两者之间的最大数,如上述代码的隐性等待时间为30,显性等待时间为20,则该代码的最长等待时间为隐性等待时间。



推荐阅读
  • 高效解决应用崩溃问题!友盟新版错误分析工具全面升级
    友盟推出的最新版错误分析工具,专为移动开发者设计,提供强大的Crash收集与分析功能。该工具能够实时监控App运行状态,快速发现并修复错误,显著提升应用的稳定性和用户体验。 ... [详细]
  • 本文将介绍如何编写一些有趣的VBScript脚本,这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例,帮助您了解VBScript的基本语法和功能。 ... [详细]
  • 本文详细介绍如何使用Python进行配置文件的读写操作,涵盖常见的配置文件格式(如INI、JSON、TOML和YAML),并提供具体的代码示例。 ... [详细]
  • PHP 5.2.5 安装与配置指南
    本文详细介绍了 PHP 5.2.5 的安装和配置步骤,帮助开发者解决常见的环境配置问题,特别是上传图片时遇到的错误。通过本教程,您可以顺利搭建并优化 PHP 运行环境。 ... [详细]
  • 本文详细介绍了如何使用 Yii2 的 GridView 组件在列表页面实现数据的直接编辑功能。通过具体的代码示例和步骤,帮助开发者快速掌握这一实用技巧。 ... [详细]
  • Android LED 数字字体的应用与实现
    本文介绍了一种适用于 Android 应用的 LED 数字字体(digital font),并详细描述了其在 UI 设计中的应用场景及其实现方法。这种字体常用于视频、广告倒计时等场景,能够增强视觉效果。 ... [详细]
  • 毕业设计:基于机器学习与深度学习的垃圾邮件(短信)分类算法实现
    本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程,并提供了具体的代码示例和实验结果。 ... [详细]
  • 优化联通光猫DNS服务器设置
    本文详细介绍了如何为联通光猫配置DNS服务器地址,以提高网络解析效率和访问体验。通过智能线路解析功能,域名解析可以根据访问者的IP来源和类型进行差异化处理,从而实现更优的网络性能。 ... [详细]
  • 本文详细记录了在基于Debian的Deepin 20操作系统上安装MySQL 5.7的具体步骤,包括软件包的选择、依赖项的处理及远程访问权限的配置。 ... [详细]
  • 如何配置Unturned服务器及其消息设置
    本文详细介绍了Unturned服务器的配置方法和消息设置技巧,帮助用户了解并优化服务器管理。同时,提供了关于云服务资源操作记录、远程登录设置以及文件传输的相关补充信息。 ... [详细]
  • 本文深入探讨了Linux系统中网卡绑定(bonding)的七种工作模式。网卡绑定技术通过将多个物理网卡组合成一个逻辑网卡,实现网络冗余、带宽聚合和负载均衡,在生产环境中广泛应用。文章详细介绍了每种模式的特点、适用场景及配置方法。 ... [详细]
  • 使用Python在SAE上开发新浪微博应用的初步探索
    最近重新审视了新浪云平台(SAE)提供的服务,发现其已支持Python开发。本文将详细介绍如何利用Django框架构建一个简单的新浪微博应用,并分享开发过程中的关键步骤。 ... [详细]
  • 本文探讨了如何在 PHP 的 Eloquent ORM 中实现数据表之间的关联查询,并通过具体示例详细解释了如何将关联数据嵌入到查询结果中。这不仅提高了数据查询的效率,还简化了代码逻辑。 ... [详细]
  • 在Python开发过程中,随着项目数量的增加,不同项目依赖于不同版本的库,容易引发依赖冲突。为了避免这些问题,并保持开发环境的整洁,可以使用Virtualenv和Virtualenvwrapper来创建和管理多个隔离的Python虚拟环境。 ... [详细]
  • PostgreSQL 10 离线安装指南
    本文详细介绍了如何在无法联网的服务器上进行 PostgreSQL 10 的离线安装,并涵盖了从下载安装包到配置远程访问的完整步骤。 ... [详细]
author-avatar
mobiledu2502886767
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有