热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

python爬虫可视化界面_python爬虫之selenium可视化爬虫介绍

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理以下文章来源于腾讯云作者:诡途(想要学习Pytho

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

以下文章来源于腾讯云 作者:诡途

( 想要学习Python?Python学习交流群:1039649593,满足你的需求,资料都已经上传群文件流,可以自行下载!还有海量最新2020python学习资料。 )

之所以把selenium爬虫称之为可视化爬虫

主要是相较于前面所提到的几种网页解析的爬虫方式

selenium爬虫主要是模拟人的点击操作

selenium驱动浏览器并进行操作的过程是可以观察到的

就类似于你在看着别人在帮你操纵你的电脑,类似于别人远程使用你的电脑

当然了,selenium也有无界面模式

快速入门

selenium基本介绍:

selenium 是一套完整的web应用程序测试系统,

包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)

和测试的并行处理(Selenium Grid)。

Selenium的核心Selenium Core基于JsUnit,

完全由Javascript编写,因此可以用于任何支持Javascript的浏览器上。

selenium可以模拟真实浏览器,自动化测试工具,支持多种浏览器,

爬虫中主要用来解决Javascript渲染问题。

用python写爬虫的时候,主要用的是selenium的Webdriver,

#安装selenium库

pip install selenium#安装对应浏览器驱动#我们可以通过下面的方式先看看Selenium.Webdriver支持哪些浏览器

from selenium importwebdriverprint(help(webdriver))

适用浏览器:

PACKAGE CONTENTS

android (package) blackberry (package) chrome (package)

common (package) edge (package) firefox (package)

ie (package) opera (package) phantomjs (package)

remote (package) safari (package) support (package) webkitgtk (package)#这里要说一下比较重要的PhantomJS,#PhantomJS是一个而基于WebKit的服务端Javascript API,#支持Web而不需要浏览器支持,#其快速、原生支持各种Web标准:Dom处理,CSS选择器,JSON等等。#PhantomJS可以用用于页面自动化、网络监测、网页截屏,以及无界面测试

简单测试

from selenium importwebdriver##声明浏览器对象

browser1 =webdriver.Chrome()

browser2=webdriver.Firefox()##访问页面

browser1.get("http://www.baidu.com")print(browser1.page_source)#关闭当前窗口

browser1.close()

元素定位

要想对页面进行操作,首先要做的是选中页面元素,

比较常见的八种元素定位方式,如下表

页面操作

1.表单填充

#找到用户名输入用户名

user = drive.find_element_by_name("LoginForm[username]")

user.send_keys(username)#找到密码输入密码

pwd=drive.find_element_by_id("LoginForm_password")

pwd.send_keys(password)#点击登录按钮实现登录

drive.find_element_by_class_name("login_btn").click()

2.窗口句柄

简单讲,句柄就是浏览器上方每一个窗口栏的唯一标识

#获取当前窗口所有句柄

handles =drive.window_handles#通过句柄 切换到第2个标签页

drive.switch_to.window(handles[2])"""操作完成"""

#关闭当前窗口

driver.close()#通过句柄 切换到第1个标签页

drive.switch_to.window(handles[0])

time.sleep(random.uniform(2,3))

3.url加载和获取

#url加载

drive.get(url)#获取当前页面url并断言

currentPageUrl = driver.current_url

4.COOKIE处理

get_COOKIEs:获取COOKIE信息

add_COOKIE:添加COOKIE信息

drive.get("http://www.baidu.com")

COOKIE= {'name':'foo','value':'bar'}

drive.add_COOKIE(COOKIE)

drive.get_COOKIEs()

等待方式

现在很多网站采用 Ajax技术

无法确定网页元素什么时候能被完全加载

所以网页元素的选取比较困难

此时就需要设置等待(等待网页加载完成)

selenium有两种等待方式:

显式等待

隐式等待

1.显式等待

显式等待是一种条件触发式等待

直到设置的某一条件达成时才会继续执行

可以设置超时时间,如果超过超时时间元素依然没被加载,就会抛出异常

from selenium importwebdriverfrom selenium.webdriver.support.wait importWebDriverWaitfrom selenium.webdriver.support importexpected_conditions as EC

drive=webdriver.Chrome()

url= 'http://www.baidu.com/'drive.get(url)try:

WebDriverWait(self.driver,10).until(EC.presence_of_element_located(By.ID,"LoginForm[username]")) #显示等待

except:print('%s页面未找到元素'% loc)

以上代码加载 'http://www.baidu.com/'页面

并定位id为"LoginForm[username]"的元素

设置超时时间10秒,webDriverWait默认会500ms检测一下元素是否存在

selenium提供了一些内置的用于显示等待的方法,

位于expected_conditions类中,详细见下表

2.隐式等待

隐式等待是在尝试定位某个元素时,如果没能立刻发现,就等待固定时长

类似于socket超时,默认设置是0秒,即相当于最长等待时长

在浏览器界面直观感受是:

等待直到网页加载完成(地址栏这个地方不是× 变成如下)时继续执行,

网页加载超过设置等待时长才报错

使用方法

from selenium importwebdriver

drive=webdriver.Chrome()

url= 'http://www.baidu.com/'

#设置最大等待时长 10秒

drive.implicitly_wait(10)

drive.get(url)

user= drive.find_element_by_name("LoginForm[username]")

3.线程休眠

time.sleep(time)是比较常用的线程休眠方式

为了避免风险,我个人比较喜欢随机休眠

time.sleep(random.uniform(4,5))

扩展程序加载

#设置好应用扩展

chrome_options.add_extension(extension_path)#添加下载路径#download.default_directory:设置下载路径 profile.default_content_settings.popups:设置为 0 禁止弹出窗口

prefs = {'profile.default_content_settings.popups': 0, 'download.default_directory':tmp_path}

chrome_options.add_experimental_option('prefs', prefs)



推荐阅读
  • 本文详细介绍了如何使用Python编写爬虫程序,从豆瓣电影Top250页面抓取电影信息。文章涵盖了从基础的网页请求到处理反爬虫机制,再到多页数据抓取的全过程,并提供了完整的代码示例。 ... [详细]
  • 在Python开发过程中,随着项目数量的增加,不同项目依赖于不同版本的库,容易引发依赖冲突。为了避免这些问题,并保持开发环境的整洁,可以使用Virtualenv和Virtualenvwrapper来创建和管理多个隔离的Python虚拟环境。 ... [详细]
  • 1.如何在运行状态查看源代码?查看函数的源代码,我们通常会使用IDE来完成。比如在PyCharm中,你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢?当我们想使用一个函 ... [详细]
  • Android LED 数字字体的应用与实现
    本文介绍了一种适用于 Android 应用的 LED 数字字体(digital font),并详细描述了其在 UI 设计中的应用场景及其实现方法。这种字体常用于视频、广告倒计时等场景,能够增强视觉效果。 ... [详细]
  • 掌握远程执行Linux脚本和命令的技巧
    本文将详细介绍如何利用Python的Paramiko库实现远程执行Linux脚本和命令,帮助读者快速掌握这一实用技能。通过具体的示例和详尽的解释,让初学者也能轻松上手。 ... [详细]
  • 本文详细介绍了Python编程语言的学习路径,涵盖基础语法、常用组件、开发工具、数据库管理、Web服务开发、大数据分析、人工智能、爬虫开发及办公自动化等多个方向。通过系统化的学习计划,帮助初学者快速掌握Python的核心技能。 ... [详细]
  • 在学习网页爬虫时,使用Selenium进行自动化操作。初次安装selenium模块后,第二天运行代码时遇到了ImportError:无法从'selenium'导入名称'webdriver'。本文将详细解释该问题的原因及解决方案。 ... [详细]
  • 使用Python在SAE上开发新浪微博应用的初步探索
    最近重新审视了新浪云平台(SAE)提供的服务,发现其已支持Python开发。本文将详细介绍如何利用Django框架构建一个简单的新浪微博应用,并分享开发过程中的关键步骤。 ... [详细]
  • 本文详细介绍了Git分布式版本控制系统中远程仓库的概念和操作方法。通过具体案例,帮助读者更好地理解和掌握如何高效管理代码库。 ... [详细]
  • 自己用过的一些比较有用的css3新属性【HTML】
    web前端|html教程自己用过的一些比较用的css3新属性web前端-html教程css3刚推出不久,虽然大多数的css3属性在很多流行的浏览器中不支持,但我个人觉得还是要尽量开 ... [详细]
  • 本文详细解析了如何使用Python的urllib模块发起POST请求,并通过实例展示如何爬取百度翻译的翻译结果。 ... [详细]
  • 本文将介绍网易NEC CSS框架的规范及其在实际项目中的应用。通过详细解析其分类和命名规则,探讨如何编写高效、可维护的CSS代码,并分享一些实用的学习心得。 ... [详细]
  • 本文介绍了如何使用 Python 的 Matplotlib 和 Pandas 库进行数据可视化。通过示例代码展示了折线图、柱状图和水平柱状图的创建方法,并解释了图表参数设置的具体细节。 ... [详细]
  • 利用决策树预测NBA比赛胜负的Python数据挖掘实践
    本文通过使用2013-14赛季NBA赛程与结果数据集以及2013年NBA排名数据,结合《Python数据挖掘入门与实践》一书中的方法,展示如何应用决策树算法进行比赛胜负预测。我们将详细讲解数据预处理、特征工程及模型评估等关键步骤。 ... [详细]
  • 在PHP后端开发中遇到一个难题:通过第三方类文件发送短信功能返回的JSON字符串无法解析。本文将探讨可能的原因并提供解决方案。 ... [详细]
author-avatar
哒Dayling玲
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有