【Python爬虫学习笔记13】使用Selenium模拟浏览器行为

作者：955单车小宏 | 来源：互联网 | 2023-09-17 11:28

在上一篇笔记《Ajax数据爬取简介》中我们提到，在爬取动态渲染页面的数据时（通常为Ajax），我们可以使用AJAXURL分析法和Selenium模拟浏览器行为两种方法，其中前者已经

在上一篇笔记《Ajax数据爬取简介》中我们提到，在爬取动态渲染页面的数据时（通常为Ajax），我们可以使用AJAX URL分析法和Selenium模拟浏览器行为两种方法，其中前者已经分析一般思维已叙述，在本节中我们主要介绍如何使用Selenium模拟浏览器行为来获取数据。

一、准备工作

在正式介绍使用之前，我们需要先安装selenium库，安装库的过程和之前一样，我们可以直接使用命令’pip install selenium’。安装完成后我们还需要配置好用于驱动浏览器行为的驱动器driver，每一个浏览器对应的driver都是不同的，具体可以参看下表：

Browser	Download URL
Chrome	https://sites.google.com/a/chromium.org/chromedriver/downloads
Edge	https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/
Firefox	https://github.com/mozilla/geckodriver/releases
Safari	https://webkit.org/blog/6900/webdriver-support-in-safari-10/

下载完对应版本的XXXdriver.exe文件后，将其放入我们python安装路径的scripts目录下即可，以供全局使用。例如，以Chrome为例，我的chromedriver.exe便可放在’C:\Users\UnikFox\AppData\Local\Programs\Python\Python36\Scripts’。

此外，这里要留意的是，每个浏览器版本的driver也是不同的，在下载页可以看到各driver所支持的浏览器版本。

二、基本使用

1.启动浏览器并访问页面

模拟浏览器的启动只需要实例化selenium的webdriver模块中相应的对象即可，然后通过这个对象的get(url)方法便可请求URL映射的页面，之后我们就可以通过访问这一个对象的属性来获取相应的页面数据信息。这里我们仍以Chrome为例，运行后我们便可发现其自动地打开了一个Chrome浏览器，并在顶部显示“Chrome正受到自动测试软件地字样”，说明我们使用selenium成功地打开了浏览器，同时我们还会发现也已经进入了我们所请求的页面。

## 模拟启动浏览器
# 导入webdriver模块
from selenium import webdriver

# 实例化webdriver对象
browser = webdriver.Chrome()

# 请求页面
browser.get('https://www.baidu.com')

# 获取网页源代码
html_text = browser.page_source

2.关闭页面

在我们模拟完成后，可以使用browser对象的close()和quit()方法关闭页面，其主要区别是前者为关闭当前页面，而后者为退出整个浏览器。

# 关闭当前页面
browser.close()

# 退出整个浏览器
browser.quit()

3.解析元素

在我们获取到页面的HTML源文本后，如要对其进行解析，实际上我们可以使用之前介绍的lxml和beautifulsoup两种解析方法，不过这里我们主要来说明一下使用selenium的解析策略。

在selenium中，我们解析元素都是通过browser来实现的，解析的方法可以是通过元素id、元素名name、类名class_name、CSS选择器或者xpath语法，在实际中具体使用时我们只需要调用browser的相关方法即可。

例如，如果我们要解析百度中的输入框input元素，则可以使用如下的解析方法：

HTML源文本：

## 解析元素
from selenium import webdriver

browser = webdriver.Chrome()
browser.get('https://www.baidu.com')

# 通过id解析
inputTag = browser.find_element_by_id('kw')

# 通过name解析
inputTag = browser.find_element_by_name('wd')

# 通过class_name解析
inputTag = browser.find_element_by_class_name('s_ipt')

# 通过CSS选择器解析
inputTag = browser.find_element_by_css_selector('.quickdelete-wrap > input')

# 通过xpath解析
inputTag = browser.find_element_by_xpath('//input[@id="kw"]')

print(type(inputTag))
# Output: 

print(inputTag)
# Output:

其实，在实际爬虫中我们更多的情况是需要解析多个元素，此时我们便可以通过’browser.find_elements_by_XXX()’来解析，和单个元素解析不同，其返回的是一个WebElement元素列表，即find_element是获取第一个满足条件的元素，而find_elements则是获取所有满足条件的元素。

此外，通过上述这种解析可能不够灵活，因为它都将解析方法都固定了，实际上selenium还为我们提供了一种可灵活选择解析方法的解析函数，这样上述示例便可等价为：

## 使用By来解析元素
from selenium import webdriver
# 导入By对象
from selenium.webdriver.common.by import By

browser = webdriver.Chrome()
browser.get('https://www.baidu.com')

# 通过id解析
inputTag = browser.find_element(By.ID,'su')

# 通过name解析
inputTag = browser.find_element(By.NAME,'wd')

# 通过class_name解析
inputTag = browser.find_element(By.CLASS_NAME,'s_ipt')

# 通过CSS选择器解析
inputTag = browser.find_element(By.CSS_SELECTOR,'.quickdelete-wrap > input')

# 通过xpath解析
inputTag = browser.find_element(By.XPATH,'//input[@id="kw"]')

4.提取元素信息

在我们获取到元素后，就要对元素的内容进行提取，提取对象包括元素的文本信息和元素的属性信息，分别对应着text属性和get_attribute()，使用示例如下：

HTML源文本：

©2018 Baidu 使用百度前必读意见反馈京ICP证030173号  京公网安备11000002000001号

copyright = browser.find_element_by_id('cp')
print(copyright.text)       #©2018 Baidu 使用百度前必读意见反馈京ICP证030173号京公网安备11000002000001号
print(inputTag.get_attribute('id'))       #cp

5.操作元素

元素的操作主要是点击和输入，在selenium中实现方式也很简便，只需要对相应待操作元素使用click()和send_keys()方法即可，使用示例如下：

#使用send_keys和click方法模拟输入和点击

inputTag = browser.find_element_by_id('kw')
inputTag.send_keys('python')

inputTag.click()

此外，在输入中若要清除已输入的内容，则可以使用clear()方法。对于任何与点击操作有关的行为都可以用这种方法实现，比如说单选和复选，前提只需要获取相应的元素就行了。

除了表单和单复选外，处理较多的还有下拉选择，因下拉点击后还需要选中元素，我们不能直接进行操作。不过我们可以借助selenium的一个类selenium.webdriver.support.ui.Select来实现，先将下拉选择元素作为参数传入这个类中实例化对象，然后我们就可以使用这个对象进行选择了。使用示例如下：

## 模拟下拉选择操作
from selenium import webdriver
# 导入selenium提供的下拉选择类
from selenium.webdriver.support.ui import Select

# <此处省略部分代码>

# 选中下拉标签并实例化Select对象
selectTag = Select(driver.find_element_by_name("FoodMenu"))

# 三种选择方式
# 根据序列索引选择（从0开始）
selectTag.select_by_index(1)
# 根据属性值value选择
selectTag.select_by_value("Fish")
# 根据可视文本选择
selectTag.select_by_visible_text("鱼")

# 取消选中所有选项
selectTag.deselect_all()

三、其他使用

1.行为链

首先，什么是行为链呢？在上述的示例中，我们都是通过对单个元素执行单步操作完成的，其实还存有另一些操作，它们没有特定的执行对象，比如鼠标拖拽、键盘按键等，这些动作是用另一种方式来执行的，常分为多步，这就是行为链，又称为动作链。

由于行为链在爬虫中运用得不多，在此以将鼠标移动到某个元素上并执行点击事件为示例简单介绍一下：

## 使用行为链示例
from selenium import webdriver
# 导入行为链模块
from selenium.webdriver import ActionChains

# <此处省略部分代码>

#获取操作对象元素
inputTag = browser.find_element_by_id('kw')
submitTag = browser.find_element_by_id('su')

# 实例化行为链，传入参数webdriver对象
actiOns= ActionChains(browser)

# 有序化定义行为链对象得执行步骤
actions.move_to_element(inputTag)
actions.send_keys_to_element(inputTag,'python')
actions.move_to_element(submitTag)
actions.click(submitTag)

# 执行行为链
actions.perform()

此外，还有如下得常见鼠标操作得方法：

点击但不松开鼠标：click_and_hold(element)
右键点击：context_click(element)
双击：double_click(element)

2.COOKIE操作

使用Selenium我们可以很方便地对COOKIE进行获取、添加和删除操作，使用示例如下：

## COOKIE操作
from selenium import webdriver

browser = webdriver.Chrome()
browser.get('https://www.baidu.com')

# 获取所有COOKIE
print(browser.get_COOKIEs())
#[{'domain': '.baidu.com', 'httpOnly': False, 'name': 'H_PS_PSSID', 'path': '/', 'secure': False, 'value': '26523_1465_21094_27244_20930'}, ...,{'domain': '.baidu.com', 'expiry': 3686218697.591083, 'httpOnly': False, 'name': 'PSTM', 'path': '/', 'secure': False, 'value': '1538735048'}]

# 获取指定名的COOKIE
print(browser.get_COOKIE('PSTM'))
#{'domain': '.baidu.com', 'expiry': 3686218697.591083, 'httpOnly': False, 'name': 'PSTM', 'path': '/', 'secure': False, 'value': '1538735048'}

# 添加COOKIE
browser.add_COOKIE({'name':'name','domain':'www.baidu.com','value':'UnikFox'})
print(browser.get_COOKIEs())
#[{'domain': '.baidu.com', 'httpOnly': False, 'name': 'H_PS_PSSID', 'path': '/', 'secure': False, 'value': '26523_1465_21094_27244_20930'}...{'domain': 'www.baidu.com', 'expiry': 2169455052, 'httpOnly': False, 'name': 'name', 'path': '/', 'secure': True, 'value': 'UnikFox'}]

# 删除指定名的COOKIE
browser.delete_COOKIE('name')
print(browser.get_COOKIEs())
#[{'domain': '.baidu.com', 'httpOnly': False, 'name': 'H_PS_PSSID', 'path': '/', 'secure': False, 'value': '26523_1465_21094_27244_20930'}, ...,{'domain': '.baidu.com', 'expiry': 3686218697.591083, 'httpOnly': False, 'name': 'PSTM', 'path': '/', 'secure': False, 'value': '1538735048'}]

# 删除所有COOKIE
browser.delete_all_COOKIEs()
print(browser.get_COOKIEs())
#[]

3.页面等待

由于很多时候我们无法预知页面元素需要花多长的时间进行加载，这时候我们就需要使用等待技术等待页面加载完成在进行解析。常用的等待方式分为显式等待和隐式等待。其中，显式等待即静态等待，无论是否加载完成都会等待，类似于time.sleep()；而隐式等待则是条件等待，通常会设置一个条件，在等待的期间当条件满足时就会结束等待，若等待时间到了条件仍未满足就会抛出TimeoutException错误。

使用示例如下：

## 页面等待
from selenium import webdriver

# 导入等待类
from selenium.webdriver.support.ui import WebDriverWait
# 导入判断条件
from selenium.webdriver.support import expected_conditions as EC
# 导入检索条件
from selenium.webdriver.common.by import By

browser = webdriver.Chrome()
browser.get('https://www.douban.com')

# 隐式等待
browser.implicitly_wait(10)
browser.find_element_by_id('123456')

# 显式等待加载
element= WebDriverWait(browser,10).until(

    # 调用判断条件检查元素是否已加载显示
    EC.presence_of_element_located((By.ID,'123456'))    #传入检索元组(方法,值)
)
print(element)

browser.quit()

一些其他的等待条件：

presence_of_element_located()：某个元素已加载完毕
presence_of_all_emement_located()：网页中所有满足条件的元素都已加载完毕
element_to_be_cliable()：某个元素已可以点击

4.打开新标签页面与切换页面

如果有时候一个浏览器需要打开不同的标签页面（这里不是新打开一个浏览器），我们可以借助browser的execute_script("window.open(url)")方法来实现，不过要注意的是，虽然打开了一个新的标签页面，但并没有切换过去，browser访问的还是原来的页面，我们可以通过browser.current_url来查看当前页面URL。

对于拥有多个子标签的页面，如果我们想要切换不同的页面，可以借助selenium提供的switch_to_window()切换方法，该方法接收待切换页面的对象，具体可通过browser.window_handles列表索引得到，而这给列表里的元素是按照browser访问页面的先后顺序自动定的。

使用示例如下：

## 打开新标签页面和切换页面
from selenium import webdriver

browser = webdriver.Chrome()
browser.get('https://www.baidu.com')

#打开一个新的标签页面
browser.execute_script("window.open('https://www.douban.com')")

# 查看当前访问得页面
print(browser.current_url)    # https://www.baidu.com/

# 查看window_handles记录列表
print(browser.window_handles) # ['CDwindow-9F7F732D4DCD86446392EADF4D719F07', 'CDwindow-A61A3EE061BC15495FF17AB629309A0B']

#切换页面
browser.switch_to.window(browser.window_handles[1])
print(browser.current_url)    # https://www.douban.com/

5.使用代理

在Selenium中我们也可以进行代理设置，不同的浏览器设置代理得方式不同，这里我们以Chrome为例介绍设置代理得方法。

在Chrome中设置代理，首先需要获取设置对象webdriver.ChromeOptions()，再使用该对象得add_argument()方法对其添加代理参数，最后再实例化浏览器驱动对象webdrive.Chrome()，同时传入参数设置对象即可。

使用示例如下：

from selenium import webdriver

# 不使用代理
browser = webdriver.Chrome()
browser.get('http://httpbin.org/ip')
"""
{
  "origin": "36.157.132.78"
}
"""

# 使用代理
# 获取设置对象
optiOns= webdriver.ChromeOptions()
# 新增设置参数
options.add_argument("--proxy-server=http://134.175.68.57:80")
# 实例化浏览器并传入设置选择参数
browser = webdriver.Chrome(chrome_optiOns=options)
browser.get('http://httpbin.org/ip')
"""
{
  "origin": "134.175.68.57"
}
"""

推荐阅读

get
Python 爬虫基础教程及代码实例

根据最新发布的《互联网人才趋势报告》，尽管大量IT从业者已转向Python开发，但随着人工智能和大数据领域的迅猛发展，仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-26 10:42:40
get
Python爬虫实战：豆瓣电影Top250数据抓取

本文详细介绍了如何使用Python编写爬虫程序，从豆瓣电影Top250页面抓取电影信息。文章涵盖了从基础的网页请求到处理反爬虫机制，再到多页数据抓取的全过程，并提供了完整的代码示例。 ... [详细]

蜡笔小新 2024-12-27 16:55:07
get
自己用过的一些比较有用的css3新属性【HTML】

web前端|html教程自己用过的一些比较用的css3新属性web前端-html教程css3刚推出不久，虽然大多数的css3属性在很多流行的浏览器中不支持，但我个人觉得还是要尽量开 ... [详细]

蜡笔小新 2024-12-24 19:26:54
get
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
post
Python入门指南：从零开始的全面学习路线

本文详细介绍了Python编程语言的学习路径，涵盖基础语法、常用组件、开发工具、数据库管理、Web服务开发、大数据分析、人工智能、爬虫开发及办公自动化等多个方向。通过系统化的学习计划，帮助初学者快速掌握Python的核心技能。 ... [详细]

蜡笔小新 2024-12-25 12:54:33
get
Python处理Word文档的高效技巧

本文详细介绍了如何使用Python处理Word文档，涵盖从基础操作到高级功能的各种技巧。我们将探讨如何生成文档、定义样式、提取表格数据以及处理超链接和图片等内容。 ... [详细]

蜡笔小新 2024-12-23 10:40:32
get
使用Python批量处理图片尺寸调整

本文介绍了如何利用Python进行批量图片尺寸调整，包括放大和等比例缩放。文中提供了详细的代码示例，并解释了每个步骤的具体实现方法。 ... [详细]

蜡笔小新 2024-12-22 17:13:05
get
JavaScript 中创建对象的多种方法

本文详细介绍了 JavaScript 中创建对象的几种常见方式，包括对象字面量、构造函数和 Object.create 方法，并提供了示例代码和属性描述符的解释。 ... [详细]

蜡笔小新 2024-12-22 16:40:51
timezone
Symfony框架的安装与使用指南

Symfony是一个功能强大的PHP框架，以其依赖注入（DI）特性著称。许多流行的PHP框架如Drupal和Laravel的核心组件都基于Symfony构建。本文将详细介绍Symfony的安装方法及其基本使用。 ... [详细]

蜡笔小新 2024-12-21 14:17:36
install
解决无法从selenium导入webdriver的错误

在学习网页爬虫时，使用Selenium进行自动化操作。初次安装selenium模块后，第二天运行代码时遇到了ImportError：无法从'selenium'导入名称'webdriver'。本文将详细解释该问题的原因及解决方案。 ... [详细]

蜡笔小新 2024-12-25 08:55:45
get
使用Python urllib模块实现POST请求并爬取百度翻译结果

本文详细解析了如何使用Python的urllib模块发起POST请求，并通过实例展示如何爬取百度翻译的翻译结果。 ... [详细]

蜡笔小新 2024-12-24 18:49:24
get
JSON 解析失败问题排查

在PHP后端开发中遇到一个难题：通过第三方类文件发送短信功能返回的JSON字符串无法解析。本文将探讨可能的原因并提供解决方案。 ... [详细]

蜡笔小新 2024-12-21 18:39:23
get
并发编程 12—— 任务取消与关闭之 shutdownNow 的局限性

Java并发编程实践目录并发编程01——ThreadLocal并发编程02——ConcurrentHashMap并发编程03——阻塞队列和生产者-消费者模式并发编程04——闭锁Co ... [详细]

蜡笔小新 2024-12-21 12:39:07
timezone
解决编译BSP包时遇到的 'gets' 未声明错误

在编译BSP包过程中，遇到了一个与 'gets' 函数相关的编译错误。该问题通常发生在较新的编译环境中，由于 'gets' 函数已被弃用并视为安全漏洞。本文将详细介绍如何通过修改源代码和配置文件来解决这一问题。 ... [详细]

蜡笔小新 2024-12-21 11:21:05
timezone
推荐几款高效测量图片像素的工具

本文介绍了几款适用于Web前端开发的工具，这些工具可以帮助用户在图片上绘制线条并精确测量其像素长度。对于需要进行图像处理或设计工作的开发者来说非常实用。 ... [详细]

蜡笔小新 2024-12-20 19:17:07

955单车小宏

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章