python爬虫可视化界面_python爬虫之selenium可视化爬虫介绍

作者：哒Dayling玲 | 来源：互联网 | 2023-09-25 12:51

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理以下文章来源于腾讯云作者：诡途(想要学习Pytho

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

以下文章来源于腾讯云作者&＃xff1a;诡途

( 想要学习Python&＃xff1f;Python学习交流群&＃xff1a;1039649593&＃xff0c;满足你的需求&＃xff0c;资料都已经上传群文件流&＃xff0c;可以自行下载&＃xff01;还有海量最新2020python学习资料。 )

之所以把selenium爬虫称之为可视化爬虫

主要是相较于前面所提到的几种网页解析的爬虫方式

selenium爬虫主要是模拟人的点击操作

selenium驱动浏览器并进行操作的过程是可以观察到的

就类似于你在看着别人在帮你操纵你的电脑&＃xff0c;类似于别人远程使用你的电脑

当然了&＃xff0c;selenium也有无界面模式

快速入门

selenium基本介绍:

selenium 是一套完整的web应用程序测试系统&＃xff0c;

包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)

和测试的并行处理(Selenium Grid)。

Selenium的核心Selenium Core基于JsUnit&＃xff0c;

完全由Javascript编写&＃xff0c;因此可以用于任何支持Javascript的浏览器上。

selenium可以模拟真实浏览器&＃xff0c;自动化测试工具&＃xff0c;支持多种浏览器&＃xff0c;

爬虫中主要用来解决Javascript渲染问题。

用python写爬虫的时候&＃xff0c;主要用的是selenium的Webdriver&＃xff0c;

#安装selenium库

pip install selenium#安装对应浏览器驱动#我们可以通过下面的方式先看看Selenium.Webdriver支持哪些浏览器

from selenium importwebdriverprint(help(webdriver))

适用浏览器&＃xff1a;

PACKAGE CONTENTS

android (package) blackberry (package) chrome (package)

common (package) edge (package) firefox (package)

ie (package) opera (package) phantomjs (package)

remote (package) safari (package) support (package) webkitgtk (package)#这里要说一下比较重要的PhantomJS,#PhantomJS是一个而基于WebKit的服务端Javascript API,#支持Web而不需要浏览器支持&＃xff0c;#其快速、原生支持各种Web标准&＃xff1a;Dom处理&＃xff0c;CSS选择器&＃xff0c;JSON等等。#PhantomJS可以用用于页面自动化、网络监测、网页截屏&＃xff0c;以及无界面测试

简单测试

from selenium importwebdriver##声明浏览器对象

browser1 &＃61;webdriver.Chrome()

browser2&＃61;webdriver.Firefox()##访问页面

browser1.get("http://www.baidu.com")print(browser1.page_source)#关闭当前窗口

browser1.close()

元素定位

要想对页面进行操作&＃xff0c;首先要做的是选中页面元素&＃xff0c;

比较常见的八种元素定位方式&＃xff0c;如下表

页面操作

1.表单填充

#找到用户名输入用户名

user &＃61; drive.find_element_by_name("LoginForm[username]")

user.send_keys(username)#找到密码输入密码

pwd&＃61;drive.find_element_by_id("LoginForm_password")

pwd.send_keys(password)#点击登录按钮实现登录

drive.find_element_by_class_name("login_btn").click()

2.窗口句柄

简单讲&＃xff0c;句柄就是浏览器上方每一个窗口栏的唯一标识

#获取当前窗口所有句柄

handles &＃61;drive.window_handles#通过句柄切换到第2个标签页

drive.switch_to.window(handles[2])"""操作完成"""

#关闭当前窗口

driver.close()#通过句柄切换到第1个标签页

drive.switch_to.window(handles[0])

time.sleep(random.uniform(2,3))

3.url加载和获取

#url加载

drive.get(url)#获取当前页面url并断言

currentPageUrl &＃61; driver.current_url

4.COOKIE处理

get_COOKIEs:获取COOKIE信息

add_COOKIE:添加COOKIE信息

drive.get("http://www.baidu.com")

COOKIE&＃61; {&＃39;name&＃39;:&＃39;foo&＃39;,&＃39;value&＃39;:&＃39;bar&＃39;}

drive.add_COOKIE(COOKIE)

drive.get_COOKIEs()

等待方式

现在很多网站采用 Ajax技术

无法确定网页元素什么时候能被完全加载

所以网页元素的选取比较困难

此时就需要设置等待(等待网页加载完成)

selenium有两种等待方式:

显式等待

隐式等待

1.显式等待

显式等待是一种条件触发式等待

直到设置的某一条件达成时才会继续执行

可以设置超时时间&＃xff0c;如果超过超时时间元素依然没被加载&＃xff0c;就会抛出异常

from selenium importwebdriverfrom selenium.webdriver.support.wait importWebDriverWaitfrom selenium.webdriver.support importexpected_conditions as EC

drive&＃61;webdriver.Chrome()

url&＃61; &＃39;http://www.baidu.com/&＃39;drive.get(url)try:

WebDriverWait(self.driver,10).until(EC.presence_of_element_located(By.ID,"LoginForm[username]")) #显示等待

except:print(&＃39;%s页面未找到元素&＃39;% loc)

以上代码加载 &＃39;http://www.baidu.com/&＃39;页面

并定位id为"LoginForm[username]"的元素

设置超时时间10秒&＃xff0c;webDriverWait默认会500ms检测一下元素是否存在

selenium提供了一些内置的用于显示等待的方法&＃xff0c;

位于expected_conditions类中&＃xff0c;详细见下表

2.隐式等待

隐式等待是在尝试定位某个元素时&＃xff0c;如果没能立刻发现&＃xff0c;就等待固定时长

类似于socket超时&＃xff0c;默认设置是0秒&＃xff0c;即相当于最长等待时长

在浏览器界面直观感受是&＃xff1a;

等待直到网页加载完成(地址栏这个地方不是× 变成如下)时继续执行&＃xff0c;

网页加载超过设置等待时长才报错

使用方法

from selenium importwebdriver

drive&＃61;webdriver.Chrome()

url&＃61; &＃39;http://www.baidu.com/&＃39;

#设置最大等待时长 10秒

drive.implicitly_wait(10)

drive.get(url)

user&＃61; drive.find_element_by_name("LoginForm[username]")

3.线程休眠

time.sleep(time)是比较常用的线程休眠方式

为了避免风险&＃xff0c;我个人比较喜欢随机休眠

time.sleep(random.uniform(4,5))

扩展程序加载

#设置好应用扩展

chrome_options.add_extension(extension_path)#添加下载路径#download.default_directory&＃xff1a;设置下载路径 profile.default_content_settings.popups&＃xff1a;设置为 0 禁止弹出窗口

prefs &＃61; {&＃39;profile.default_content_settings.popups&＃39;: 0, &＃39;download.default_directory&＃39;:tmp_path}

chrome_options.add_experimental_option(&＃39;prefs&＃39;, prefs)

推荐阅读

version
Python爬虫实战：豆瓣电影Top250数据抓取

本文详细介绍了如何使用Python编写爬虫程序，从豆瓣电影Top250页面抓取电影信息。文章涵盖了从基础的网页请求到处理反爬虫机制，再到多页数据抓取的全过程，并提供了完整的代码示例。 ... [详细]

蜡笔小新 2024-12-27 16:55:07
python
Python开发中使用Virtualenv和Virtualenvwrapper管理虚拟环境

在Python开发过程中，随着项目数量的增加，不同项目依赖于不同版本的库，容易引发依赖冲突。为了避免这些问题，并保持开发环境的整洁，可以使用Virtualenv和Virtualenvwrapper来创建和管理多个隔离的Python虚拟环境。 ... [详细]

蜡笔小新 2024-12-25 12:05:35
uri
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
import
Android LED 数字字体的应用与实现

本文介绍了一种适用于 Android 应用的 LED 数字字体（digital font），并详细描述了其在 UI 设计中的应用场景及其实现方法。这种字体常用于视频、广告倒计时等场景，能够增强视觉效果。 ... [详细]

蜡笔小新 2024-12-27 10:34:22
import
掌握远程执行Linux脚本和命令的技巧

本文将详细介绍如何利用Python的Paramiko库实现远程执行Linux脚本和命令，帮助读者快速掌握这一实用技能。通过具体的示例和详尽的解释，让初学者也能轻松上手。 ... [详细]

蜡笔小新 2024-12-26 19:47:05
python
Python入门指南：从零开始的全面学习路线

本文详细介绍了Python编程语言的学习路径，涵盖基础语法、常用组件、开发工具、数据库管理、Web服务开发、大数据分析、人工智能、爬虫开发及办公自动化等多个方向。通过系统化的学习计划，帮助初学者快速掌握Python的核心技能。 ... [详细]

蜡笔小新 2024-12-25 12:54:33
import
解决无法从selenium导入webdriver的错误

在学习网页爬虫时，使用Selenium进行自动化操作。初次安装selenium模块后，第二天运行代码时遇到了ImportError：无法从'selenium'导入名称'webdriver'。本文将详细解释该问题的原因及解决方案。 ... [详细]

蜡笔小新 2024-12-25 08:55:45
import
使用Python在SAE上开发新浪微博应用的初步探索

最近重新审视了新浪云平台（SAE）提供的服务，发现其已支持Python开发。本文将详细介绍如何利用Django框架构建一个简单的新浪微博应用，并分享开发过程中的关键步骤。 ... [详细]

蜡笔小新 2024-12-26 13:36:52
jsp
Git 分布式版本控制系统：远程仓库的深入探讨

本文详细介绍了Git分布式版本控制系统中远程仓库的概念和操作方法。通过具体案例，帮助读者更好地理解和掌握如何高效管理代码库。 ... [详细]

蜡笔小新 2024-12-25 18:30:21
jsp
自己用过的一些比较有用的css3新属性【HTML】

web前端|html教程自己用过的一些比较用的css3新属性web前端-html教程css3刚推出不久，虽然大多数的css3属性在很多流行的浏览器中不支持，但我个人觉得还是要尽量开 ... [详细]

蜡笔小新 2024-12-24 19:26:54
import
使用Python urllib模块实现POST请求并爬取百度翻译结果

本文详细解析了如何使用Python的urllib模块发起POST请求，并通过实例展示如何爬取百度翻译的翻译结果。 ... [详细]

蜡笔小新 2024-12-24 18:49:24
jsp
深入理解网易NEC CSS框架：规范、应用与学习心得

本文将介绍网易NEC CSS框架的规范及其在实际项目中的应用。通过详细解析其分类和命名规则，探讨如何编写高效、可维护的CSS代码，并分享一些实用的学习心得。 ... [详细]

蜡笔小新 2024-12-24 18:08:51
import
Python 数据可视化：图表绘制与分析

本文介绍了如何使用 Python 的 Matplotlib 和 Pandas 库进行数据可视化。通过示例代码展示了折线图、柱状图和水平柱状图的创建方法，并解释了图表参数设置的具体细节。 ... [详细]

蜡笔小新 2024-12-24 09:47:01
uri
利用决策树预测NBA比赛胜负的Python数据挖掘实践

本文通过使用2013-14赛季NBA赛程与结果数据集以及2013年NBA排名数据，结合《Python数据挖掘入门与实践》一书中的方法，展示如何应用决策树算法进行比赛胜负预测。我们将详细讲解数据预处理、特征工程及模型评估等关键步骤。 ... [详细]

蜡笔小新 2024-12-23 09:07:40
match
JSON 解析失败问题排查

在PHP后端开发中遇到一个难题：通过第三方类文件发送短信功能返回的JSON字符串无法解析。本文将探讨可能的原因并提供解决方案。 ... [详细]

蜡笔小新 2024-12-21 18:39:23

哒Dayling玲

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章