热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

pythonclick()打开新网页_网页自动化开发(第三章)

Selenium常用功能在前面的内容中,大成带您已经学习Selenium的基本使用方法,掌握了如何启动浏览器(ghrome浏览器,当然也可

9707a1d8671227feac148984659523a9.png

 Selenium常用功能

在前面的内容中,大成带您已经学习Selenium的基本使用方法,掌握了如何启动浏览器(ghrome浏览器,当然也可用ie和firefox)、查找并定位网页元素以及网页元素的操控。本节中,我们讲述Selenium的一些常用功能,如设置浏览器的参数、浏览器多窗口切换、设置等待时间、文件的上传与下载、COOKIEs处理以及frame框架操作。设置浏览器的参数是在定义driver的时候设置chrome_options参数,该参数是一个Options类所实例化的对象。其中常用的参数是设置浏览器是否可视化和浏览器的请求头等信息,前者可以加快代码的运行速度,后者可以有效地防止网站的反爬虫检测。具体的代码如下:line(17-20)

#!/usr/bin/python# -*- coding: UTF-8 -*-import jsonimport timeimport seleniumfrom selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsfrom selenium.webdriver.support.wait import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.common.by import Byclass GetSessionAndToken(): def __init__(self): chrome_options = Options() chrome_options.add_argument('accept=application/json, text/plain, */*') chrome_options.add_argument('accept-language=en-US,en;q=0.9')        UserAgent = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36' chrome_options.add_argument('User-Agent=' + UserAgent) self.driver = webdriver.Chrome(chrome_options=chrome_options)    #登录时候,最好加上time.sleep(),本地网络比较差,加上了延时 # 登录系统,具体到自己系统时需要自行修改 def login_system(self): try: url = 'https://portal.taobao-qa.com/' self.driver.maximize_window() # driver.minimize_window() self.driver.get(url) time.sleep(10) # '/html/body/div[3]/div/div/div/div[2]/div[2]/div/div/div[3]/button' self.driver.find_element_by_xpath( '/html/body/div[3]/div/div/div/div[2]/div[2]/div/div/div[3]/button').click() time.sleep(10) # 输入邮箱            self.driver.find_element_by_xpath('//*[@id="i0116"]').send_keys('taobao@tianmao.com') time.sleep(10) # Next self.driver.find_element_by_xpath('//*[@id="idSIButton9"]').click() time.sleep(10) self.driver.find_element_by_xpath('//*[@id="i0118"]').send_keys('XXXXXXX') time.sleep(10) # sign in self.driver.find_element_by_xpath('//*[@id="idSIButton9"]').click() time.sleep(5) # yes self.driver.find_element_by_xpath('//*[@id="idSIButton9"]').click() time.sleep(5) print(self.driver.get_COOKIEs()); # print(COOKIEs) # COOKIEs = driver.get_COOKIE('AuthSessionId') # print(COOKIEs) except selenium.common.exceptions.NoSuchElementException: print("Error Message: no such element: Unable to locate element") def get_sessionid(self): # 是要从localStorage中获取还是要从sessionStorage中获取,具体看目标系统存到哪个中 # window.sessionStorage和直接写sessionStorage是等效的 # 一定要使用return,不然获取到的一直是None # get的Item不一定就叫sessionId,得具体看目标系统把sessionid存到哪个变量中 sessionid = self.driver.execute_script('return Storage.COOKIEs("AuthSessionId");') return sessionid # 获取token def get_token(self): # 是要从localStorage中获取还是要从sessionStorage中获取,具体看目标系统存到哪个中 # window.sessionStorage和直接写sessionStorage是等效的 # 一定要使用return,不然获取到的一直是None # get的Item不一定就叫token,得具体看目标系统把token存到哪个变量中 token = self.driver.execute_script('return sessionStorage.getItem("token");') # print(f"{token}") return token def __del__(self): # 退出程序时关闭浏览器 self.driver.close()if __name__ == "__main__": obj = GetSessionAndToken() obj.login_system()

上面代码基本都在一个界面下完成,打开浏览器,有时候会有多个新的页面打开,那么就需要通过Selenium的切换不同的页面来完成

例如:分别打开2个窗口,中间进行切换

def changepage(self): url = "https://www.iqiyi.com/" # 爱奇艺首页 self.driver.get(url) #百度窗口首页 js = 'window.open("http://www.baidu.com")' self.driver.execute_script(js)        # 获取当前显示的窗口信息        current_windows = self.driver.current_window_handle # 获取浏览器的全部窗口信息 self.handles = self.driver.window_handles # 设置延时 time.sleep(3) self.driver.switch_to_window(self.handles[0]) time.sleep(3) self.driver.switch_to_window(self.handles[1])

cf21bd9e0ca957648daad3d383a2f5ab.png

6和7行,定义了js的定义,execute_script的方法,浏览器很多是用到Javascript来实现,功能是很强大的。selenium的运行速度往往比网页快,这里加上了sleep()等待时间,让Selenium与网页响应尽量的达到同步。延时用Python中的time库的sleep实现。也可以设置隐形等待,

driver.implicitly_wait(30)上面设置30秒等待时间,网页只要在30秒内完成加载就会执行下一步,如果超过30秒,就会抛出异常,隐形设置时间,设置这个driver周期来作用的,只要设置一次就可以。

显性等待能够根据判断条件而进行灵活地等待,程序每隔一段时间检测一次,如果检测结果与条件成立了,则执行下一步,否则继续等待,直到超过设置的最长时间为止,然后抛出TimeoutException异常。显性等待的使用涉及到多个模块,包括By、expected_conditions和WebDriverWait,各个模块说明如下。

  •  By:设置元素定位方式

定位方式共8种:

ID、XPATH、LINK_TEXT、PARTIAL_LINK_TEXT、NAME、TAG_NAME、CLASS_NAME、CSS_SELECTOR。

expected_conditions:验证网页元素是否存在,提供了多种验证方式。

  • WebDriverWait的参数说明如下。

  • driver:浏览器对象driver。

  • timeout:超时时间,等待的最长时间。

  • poll_frequency:检测时间的间隔。

  • ignored_exceptions:忽略的异常,如果在调用until或until_not的过程中抛出的异常在这个参数里,则不中断代码,继续等待,如果抛出的异常在这个参数之外,则中断代码并抛出异常。默认值为NoSuchElementException。

  • until:条件判断,参数必须为expected_conditions对象。如果网页里某个元素与条件符合,则中断等待并执行下一个步骤。

  • until_not:与until的逻辑相反。

隐性等待和显性等待相比于time.sleep这种强制等待更为灵活和智能,可解决各种网络延误的问题,隐性等待和显性等待可以同时使用,但最长的等待时间取决于两者之间的最大数,如上述代码的隐性等待时间为30,显性等待时间为20,则该代码的最长等待时间为隐性等待时间。



推荐阅读
  • 在PHP后端开发中遇到一个难题:通过第三方类文件发送短信功能返回的JSON字符串无法解析。本文将探讨可能的原因并提供解决方案。 ... [详细]
  • 深入理解OAuth认证机制
    本文介绍了OAuth认证协议的核心概念及其工作原理。OAuth是一种开放标准,旨在为第三方应用提供安全的用户资源访问授权,同时确保用户的账户信息(如用户名和密码)不会暴露给第三方。 ... [详细]
  • 本文详细介绍如何使用Python进行配置文件的读写操作,涵盖常见的配置文件格式(如INI、JSON、TOML和YAML),并提供具体的代码示例。 ... [详细]
  • 高效解决应用崩溃问题!友盟新版错误分析工具全面升级
    友盟推出的最新版错误分析工具,专为移动开发者设计,提供强大的Crash收集与分析功能。该工具能够实时监控App运行状态,快速发现并修复错误,显著提升应用的稳定性和用户体验。 ... [详细]
  • 本文详细介绍了Git分布式版本控制系统中远程仓库的概念和操作方法。通过具体案例,帮助读者更好地理解和掌握如何高效管理代码库。 ... [详细]
  • 毕业设计:基于机器学习与深度学习的垃圾邮件(短信)分类算法实现
    本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程,并提供了具体的代码示例和实验结果。 ... [详细]
  • 自己用过的一些比较有用的css3新属性【HTML】
    web前端|html教程自己用过的一些比较用的css3新属性web前端-html教程css3刚推出不久,虽然大多数的css3属性在很多流行的浏览器中不支持,但我个人觉得还是要尽量开 ... [详细]
  • 创建项目:Visual Studio Online 入门指南
    本文介绍如何使用微软的 Visual Studio Online(VSO)创建和管理开发项目。作为一款基于云计算的开发平台,VSO 提供了丰富的工具和服务,简化了项目的配置和部署流程。 ... [详细]
  • 本文详细介绍了在 Windows 2000 系统中启用 TELNET 服务时需要注意的 NTLM 配置问题,帮助用户解决常见的身份验证失败错误。 ... [详细]
  • 解决FCKeditor应用主题后上传问题及优化配置
    本文介绍了在Freetextbox收费后选择FCKeditor作为替代方案时遇到的上传问题及其解决方案。通过调整配置文件和调试工具,最终解决了上传失败的问题,并对相关配置进行了优化。 ... [详细]
  • 利用Selenium与ChromeDriver实现豆瓣网页全屏截图
    本文介绍了一种使用Selenium和ChromeDriver结合Python代码,轻松实现对豆瓣网站进行完整页面截图的方法。该方法不仅简单易行,而且解决了新版Selenium不再支持PhantomJS的问题。 ... [详细]
  • 本文详细介绍了在不同操作系统中查找和设置网卡的方法,涵盖了Windows系统的具体步骤,并提供了关于网卡位置、无线网络设置及常见问题的解答。 ... [详细]
  • 本文将介绍如何编写一些有趣的VBScript脚本,这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例,帮助您了解VBScript的基本语法和功能。 ... [详细]
  • 本文详细解析了如何使用Python的urllib模块发起POST请求,并通过实例展示如何爬取百度翻译的翻译结果。 ... [详细]
  • Python自动化测试入门:Selenium环境搭建
    本文详细介绍如何在Python环境中安装和配置Selenium,包括开发工具PyCharm的安装、Python环境的设置以及Selenium包的安装方法。此外,还提供了编写和运行第一个自动化测试脚本的步骤。 ... [详细]
author-avatar
mobiledu2502886767
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有