Selenium常用功能
在前面的内容中,大成带您已经学习Selenium的基本使用方法,掌握了如何启动浏览器(ghrome浏览器,当然也可用ie和firefox)、查找并定位网页元素以及网页元素的操控。本节中,我们讲述Selenium的一些常用功能,如设置浏览器的参数、浏览器多窗口切换、设置等待时间、文件的上传与下载、COOKIEs处理以及frame框架操作。设置浏览器的参数是在定义driver的时候设置chrome_options参数,该参数是一个Options类所实例化的对象。其中常用的参数是设置浏览器是否可视化和浏览器的请求头等信息,前者可以加快代码的运行速度,后者可以有效地防止网站的反爬虫检测。具体的代码如下:line(17-20)
#!/usr/bin/python# -*- coding: UTF-8 -*-import jsonimport timeimport seleniumfrom selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsfrom selenium.webdriver.support.wait import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.common.by import Byclass GetSessionAndToken(): def __init__(self): chrome_options = Options() chrome_options.add_argument('accept=application/json, text/plain, */*') chrome_options.add_argument('accept-language=en-US,en;q=0.9') UserAgent = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36' chrome_options.add_argument('User-Agent=' + UserAgent) self.driver = webdriver.Chrome(chrome_options=chrome_options) #登录时候,最好加上time.sleep(),本地网络比较差,加上了延时 # 登录系统,具体到自己系统时需要自行修改 def login_system(self): try: url = 'https://portal.taobao-qa.com/' self.driver.maximize_window() # driver.minimize_window() self.driver.get(url) time.sleep(10) # '/html/body/div[3]/div/div/div/div[2]/div[2]/div/div/div[3]/button' self.driver.find_element_by_xpath( '/html/body/div[3]/div/div/div/div[2]/div[2]/div/div/div[3]/button').click() time.sleep(10) # 输入邮箱 self.driver.find_element_by_xpath('//*[@id="i0116"]').send_keys('taobao@tianmao.com') time.sleep(10) # Next self.driver.find_element_by_xpath('//*[@id="idSIButton9"]').click() time.sleep(10) self.driver.find_element_by_xpath('//*[@id="i0118"]').send_keys('XXXXXXX') time.sleep(10) # sign in self.driver.find_element_by_xpath('//*[@id="idSIButton9"]').click() time.sleep(5) # yes self.driver.find_element_by_xpath('//*[@id="idSIButton9"]').click() time.sleep(5) print(self.driver.get_COOKIEs()); # print(COOKIEs) # COOKIEs = driver.get_COOKIE('AuthSessionId') # print(COOKIEs) except selenium.common.exceptions.NoSuchElementException: print("Error Message: no such element: Unable to locate element") def get_sessionid(self): # 是要从localStorage中获取还是要从sessionStorage中获取,具体看目标系统存到哪个中 # window.sessionStorage和直接写sessionStorage是等效的 # 一定要使用return,不然获取到的一直是None # get的Item不一定就叫sessionId,得具体看目标系统把sessionid存到哪个变量中 sessionid = self.driver.execute_script('return Storage.COOKIEs("AuthSessionId");') return sessionid # 获取token def get_token(self): # 是要从localStorage中获取还是要从sessionStorage中获取,具体看目标系统存到哪个中 # window.sessionStorage和直接写sessionStorage是等效的 # 一定要使用return,不然获取到的一直是None # get的Item不一定就叫token,得具体看目标系统把token存到哪个变量中 token = self.driver.execute_script('return sessionStorage.getItem("token");') # print(f"{token}") return token def __del__(self): # 退出程序时关闭浏览器 self.driver.close()if __name__ == "__main__": obj = GetSessionAndToken() obj.login_system()
上面代码基本都在一个界面下完成,打开浏览器,有时候会有多个新的页面打开,那么就需要通过Selenium的切换不同的页面来完成
例如:分别打开2个窗口,中间进行切换
def changepage(self): url = "https://www.iqiyi.com/" # 爱奇艺首页 self.driver.get(url) #百度窗口首页 js = 'window.open("http://www.baidu.com")' self.driver.execute_script(js) # 获取当前显示的窗口信息 current_windows = self.driver.current_window_handle # 获取浏览器的全部窗口信息 self.handles = self.driver.window_handles # 设置延时 time.sleep(3) self.driver.switch_to_window(self.handles[0]) time.sleep(3) self.driver.switch_to_window(self.handles[1])
6和7行,定义了js的定义,execute_script的方法,浏览器很多是用到Javascript来实现,功能是很强大的。selenium的运行速度往往比网页快,这里加上了sleep()等待时间,让Selenium与网页响应尽量的达到同步。延时用Python中的time库的sleep实现。也可以设置隐形等待,
driver.implicitly_wait(30)
上面设置30秒等待时间,网页只要在30秒内完成加载就会执行下一步,如果超过30秒,就会抛出异常,隐形设置时间,设置这个driver周期来作用的,只要设置一次就可以。
显性等待能够根据判断条件而进行灵活地等待,程序每隔一段时间检测一次,如果检测结果与条件成立了,则执行下一步,否则继续等待,直到超过设置的最长时间为止,然后抛出TimeoutException异常。显性等待的使用涉及到多个模块,包括By、expected_conditions和WebDriverWait,各个模块说明如下。
定位方式共8种:
ID、XPATH、LINK_TEXT、PARTIAL_LINK_TEXT、NAME、TAG_NAME、CLASS_NAME、CSS_SELECTOR。
expected_conditions:验证网页元素是否存在,提供了多种验证方式。
driver:浏览器对象driver。
timeout:超时时间,等待的最长时间。
poll_frequency:检测时间的间隔。
ignored_exceptions:忽略的异常,如果在调用until或until_not的过程中抛出的异常在这个参数里,则不中断代码,继续等待,如果抛出的异常在这个参数之外,则中断代码并抛出异常。默认值为NoSuchElementException。
until:条件判断,参数必须为expected_conditions对象。如果网页里某个元素与条件符合,则中断等待并执行下一个步骤。
until_not:与until的逻辑相反。
隐性等待和显性等待相比于time.sleep这种强制等待更为灵活和智能,可解决各种网络延误的问题,隐性等待和显性等待可以同时使用,但最长的等待时间取决于两者之间的最大数,如上述代码的隐性等待时间为30,显性等待时间为20,则该代码的最长等待时间为隐性等待时间。