热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

pythonclick()打开新网页_网页自动化开发(第三章)

Selenium常用功能在前面的内容中,大成带您已经学习Selenium的基本使用方法,掌握了如何启动浏览器(ghrome浏览器,当然也可

9707a1d8671227feac148984659523a9.png

 Selenium常用功能

在前面的内容中,大成带您已经学习Selenium的基本使用方法,掌握了如何启动浏览器(ghrome浏览器,当然也可用ie和firefox)、查找并定位网页元素以及网页元素的操控。本节中,我们讲述Selenium的一些常用功能,如设置浏览器的参数、浏览器多窗口切换、设置等待时间、文件的上传与下载、COOKIEs处理以及frame框架操作。设置浏览器的参数是在定义driver的时候设置chrome_options参数,该参数是一个Options类所实例化的对象。其中常用的参数是设置浏览器是否可视化和浏览器的请求头等信息,前者可以加快代码的运行速度,后者可以有效地防止网站的反爬虫检测。具体的代码如下:line(17-20)

#!/usr/bin/python# -*- coding: UTF-8 -*-import jsonimport timeimport seleniumfrom selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsfrom selenium.webdriver.support.wait import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.common.by import Byclass GetSessionAndToken(): def __init__(self): chrome_options = Options() chrome_options.add_argument('accept=application/json, text/plain, */*') chrome_options.add_argument('accept-language=en-US,en;q=0.9')        UserAgent = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36' chrome_options.add_argument('User-Agent=' + UserAgent) self.driver = webdriver.Chrome(chrome_options=chrome_options)    #登录时候,最好加上time.sleep(),本地网络比较差,加上了延时 # 登录系统,具体到自己系统时需要自行修改 def login_system(self): try: url = 'https://portal.taobao-qa.com/' self.driver.maximize_window() # driver.minimize_window() self.driver.get(url) time.sleep(10) # '/html/body/div[3]/div/div/div/div[2]/div[2]/div/div/div[3]/button' self.driver.find_element_by_xpath( '/html/body/div[3]/div/div/div/div[2]/div[2]/div/div/div[3]/button').click() time.sleep(10) # 输入邮箱            self.driver.find_element_by_xpath('//*[@id="i0116"]').send_keys('taobao@tianmao.com') time.sleep(10) # Next self.driver.find_element_by_xpath('//*[@id="idSIButton9"]').click() time.sleep(10) self.driver.find_element_by_xpath('//*[@id="i0118"]').send_keys('XXXXXXX') time.sleep(10) # sign in self.driver.find_element_by_xpath('//*[@id="idSIButton9"]').click() time.sleep(5) # yes self.driver.find_element_by_xpath('//*[@id="idSIButton9"]').click() time.sleep(5) print(self.driver.get_COOKIEs()); # print(COOKIEs) # COOKIEs = driver.get_COOKIE('AuthSessionId') # print(COOKIEs) except selenium.common.exceptions.NoSuchElementException: print("Error Message: no such element: Unable to locate element") def get_sessionid(self): # 是要从localStorage中获取还是要从sessionStorage中获取,具体看目标系统存到哪个中 # window.sessionStorage和直接写sessionStorage是等效的 # 一定要使用return,不然获取到的一直是None # get的Item不一定就叫sessionId,得具体看目标系统把sessionid存到哪个变量中 sessionid = self.driver.execute_script('return Storage.COOKIEs("AuthSessionId");') return sessionid # 获取token def get_token(self): # 是要从localStorage中获取还是要从sessionStorage中获取,具体看目标系统存到哪个中 # window.sessionStorage和直接写sessionStorage是等效的 # 一定要使用return,不然获取到的一直是None # get的Item不一定就叫token,得具体看目标系统把token存到哪个变量中 token = self.driver.execute_script('return sessionStorage.getItem("token");') # print(f"{token}") return token def __del__(self): # 退出程序时关闭浏览器 self.driver.close()if __name__ == "__main__": obj = GetSessionAndToken() obj.login_system()

上面代码基本都在一个界面下完成,打开浏览器,有时候会有多个新的页面打开,那么就需要通过Selenium的切换不同的页面来完成

例如:分别打开2个窗口,中间进行切换

def changepage(self): url = "https://www.iqiyi.com/" # 爱奇艺首页 self.driver.get(url) #百度窗口首页 js = 'window.open("http://www.baidu.com")' self.driver.execute_script(js)        # 获取当前显示的窗口信息        current_windows = self.driver.current_window_handle # 获取浏览器的全部窗口信息 self.handles = self.driver.window_handles # 设置延时 time.sleep(3) self.driver.switch_to_window(self.handles[0]) time.sleep(3) self.driver.switch_to_window(self.handles[1])

cf21bd9e0ca957648daad3d383a2f5ab.png

6和7行,定义了js的定义,execute_script的方法,浏览器很多是用到Javascript来实现,功能是很强大的。selenium的运行速度往往比网页快,这里加上了sleep()等待时间,让Selenium与网页响应尽量的达到同步。延时用Python中的time库的sleep实现。也可以设置隐形等待,

driver.implicitly_wait(30)上面设置30秒等待时间,网页只要在30秒内完成加载就会执行下一步,如果超过30秒,就会抛出异常,隐形设置时间,设置这个driver周期来作用的,只要设置一次就可以。

显性等待能够根据判断条件而进行灵活地等待,程序每隔一段时间检测一次,如果检测结果与条件成立了,则执行下一步,否则继续等待,直到超过设置的最长时间为止,然后抛出TimeoutException异常。显性等待的使用涉及到多个模块,包括By、expected_conditions和WebDriverWait,各个模块说明如下。

  •  By:设置元素定位方式

定位方式共8种:

ID、XPATH、LINK_TEXT、PARTIAL_LINK_TEXT、NAME、TAG_NAME、CLASS_NAME、CSS_SELECTOR。

expected_conditions:验证网页元素是否存在,提供了多种验证方式。

  • WebDriverWait的参数说明如下。

  • driver:浏览器对象driver。

  • timeout:超时时间,等待的最长时间。

  • poll_frequency:检测时间的间隔。

  • ignored_exceptions:忽略的异常,如果在调用until或until_not的过程中抛出的异常在这个参数里,则不中断代码,继续等待,如果抛出的异常在这个参数之外,则中断代码并抛出异常。默认值为NoSuchElementException。

  • until:条件判断,参数必须为expected_conditions对象。如果网页里某个元素与条件符合,则中断等待并执行下一个步骤。

  • until_not:与until的逻辑相反。

隐性等待和显性等待相比于time.sleep这种强制等待更为灵活和智能,可解决各种网络延误的问题,隐性等待和显性等待可以同时使用,但最长的等待时间取决于两者之间的最大数,如上述代码的隐性等待时间为30,显性等待时间为20,则该代码的最长等待时间为隐性等待时间。



推荐阅读
  • 本文介绍如何使用OpenCV和线性支持向量机(SVM)模型来开发一个简单的人脸识别系统,特别关注在只有一个用户数据集时的处理方法。 ... [详细]
  • 深入解析HTML5字符集属性:charset与defaultCharset
    本文将详细介绍HTML5中新增的字符集属性charset和defaultCharset,帮助开发者更好地理解和应用这些属性,以确保网页在不同环境下的正确显示。 ... [详细]
  • 本文详细介绍了如何使用Python中的smtplib库来发送带有附件的邮件,并提供了完整的代码示例。作者:多测师_王sir,时间:2020年5月20日 17:24,微信:15367499889,公司:上海多测师信息有限公司。 ... [详细]
  • 本文介绍了如何利用 `matplotlib` 库中的 `FuncAnimation` 类将 Python 中的动态图像保存为视频文件。通过详细解释 `FuncAnimation` 类的参数和方法,文章提供了多种实用技巧,帮助用户高效地生成高质量的动态图像视频。此外,还探讨了不同视频编码器的选择及其对输出文件质量的影响,为读者提供了全面的技术指导。 ... [详细]
  • 在 CentOS 7 系统中安装 Scrapy 时遇到了一些挑战。尽管 Scrapy 在 Ubuntu 上安装简便,但在 CentOS 7 上需要额外的配置和步骤。本文总结了常见问题及其解决方案,帮助用户顺利安装并使用 Scrapy 进行网络爬虫开发。 ... [详细]
  • Python 程序转换为 EXE 文件:详细解析 .py 脚本打包成独立可执行文件的方法与技巧
    在开发了几个简单的爬虫 Python 程序后,我决定将其封装成独立的可执行文件以便于分发和使用。为了实现这一目标,首先需要解决的是如何将 Python 脚本转换为 EXE 文件。在这个过程中,我选择了 Qt 作为 GUI 框架,因为之前对此并不熟悉,希望通过这个项目进一步学习和掌握 Qt 的基本用法。本文将详细介绍从 .py 脚本到 EXE 文件的整个过程,包括所需工具、具体步骤以及常见问题的解决方案。 ... [详细]
  • Python爬虫数据导出至CSV及图片存储技术详解
    Python爬虫数据导出至CSV及图片存储技术详解 ... [详细]
  • 本文讨论了在进行 MySQL 数据迁移过程中遇到的所有 .frm 文件报错的问题,并提供了详细的解决方案和建议。 ... [详细]
  • 技术分享:使用 Flask、AngularJS 和 Jinja2 构建高效前后端交互系统
    技术分享:使用 Flask、AngularJS 和 Jinja2 构建高效前后端交互系统 ... [详细]
  • 您的数据库配置是否安全?DBSAT工具助您一臂之力!
    本文探讨了Oracle提供的免费工具DBSAT,该工具能够有效协助用户检测和优化数据库配置的安全性。通过全面的分析和报告,DBSAT帮助用户识别潜在的安全漏洞,并提供针对性的改进建议,确保数据库系统的稳定性和安全性。 ... [详细]
  • Swoole加密机制的安全性分析与破解可能性探讨
    本文深入分析了Swoole框架的加密机制,探讨了其在实际应用中的安全性,并评估了潜在的破解可能性。研究结果表明,尽管Swoole的加密算法在大多数情况下能够提供有效的安全保护,但在特定场景下仍存在被攻击的风险。文章还提出了一些改进措施,以增强系统的整体安全性。 ... [详细]
  • 本指南介绍了 `requests` 库的基本使用方法,详细解释了其七个主要函数。其中,`requests.request()` 是构建请求的基础方法,支持其他高级功能的实现。此外,我们还重点介绍了如何使用 `requests.get()` 方法来获取 HTML 网页内容,这是进行网页数据抓取和解析的重要步骤。通过这些基础方法,读者可以轻松上手并掌握网页数据抓取的核心技巧。 ... [详细]
  • 通过使用七牛云存储服务,本文详细介绍了如何将本地图片高效上传至云端,并实现了内容的便捷管理。借助七牛云的 Python SDK,文章提供了从认证到文件上传的具体代码示例,包括导入必要的库、生成上传凭证以及处理文件路径等关键步骤。此外,还探讨了如何利用七牛云的 URL 安全编码功能,确保数据传输的安全性和可靠性。 ... [详细]
  • 七款高效编辑器与笔记工具推荐:KindEditor自动换行功能解析
    本文推荐了七款高效的编辑器与笔记工具,并详细解析了KindEditor的自动换行功能。其中,轻笔记QingBiJi是一款完全免费的记事本软件,用户可以通过其简洁的界面和强大的功能轻松记录和管理日常事务。此外,该软件还支持多平台同步,确保用户在不同设备间无缝切换。 ... [详细]
  • 在第10天的夜灵HTML日志中,我们深入探讨了浏览器兼容性和高级选择器的应用。CSS3引入了许多新属性,但在旧版浏览器中的支持情况并不理想。然而,目前主流浏览器的最新版本已全面支持这些新特性。对于那些不支持CSS3新属性的浏览器,我们提供了多种解决方案,以确保网站在不同环境下的兼容性和用户体验。此外,我们还详细讨论了如何利用高级选择器提升页面布局的灵活性和可维护性。 ... [详细]
author-avatar
mobiledu2502886767
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有