热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

R成精系列Macos用R+Docker部署Rselenium搭建爬虫系统

最近在用R做爬虫的时候遇到了部分网页无法爬取。于是转投Selenium的怀抱。本文就简要介绍利用mac 下的docker搭建Selenium环境,实现爬虫应用。
先简单介绍用的工具:

  • Selenium也是一个用于Web应用程序测试的工具,Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。本文将采用Selenium Grid,它用于分布式自动化测试,就是一套Selenium 代码可在不同的环境上运行。Selenium Grid 有两个概念
    • hub :主节点,接受测试任务,并进行分配,只有一个主hub节点。
    • node:分支节点,不同的节点分支,接受hub任务,并进行测试,可以有多个。
  • RSelenium通过调用Selenium Sever来模拟浏览器环境,实现爬虫任务。
  • Docker一般叫docker容器,一个可爱的鲸鱼,上面坨着集装箱,可以比喻为电脑集群。先来搞清楚它里面的几个概念。
    • Docker镜像,运行Docker容器的一个环境,打个比方镜像就像已经配置好的程序包或者源代码的光盘,用于将程勋安装在电脑上。
    • Docker容器,简单的说,容器是独立运行的一个或一组应用,以及它们的运行态环境。 如果把镜像看成面向对象中的 “类” 的话,那么容器就是“类”的实例化“ 对象”,打个比方:容器就像是已经安装好镜像的一台台电脑,但是容器一关闭后这台电脑就消失了。
    • Docker仓库,存放Docker镜像的仓库,作用和GitHub类似,Docker仓库就相当于光盘盒子。
      通过docker可以快速搭建各种环境。刚好可用于本次爬虫任务的hub+node环境的搭建,另外说句题外话docker技术细节你可以不懂,但是你需要知道怎么使用。
  • R 嗯~~~不用介绍了吧。
  • Mac OS……
    接下来进入到实操环节:
    ##下载Docker安装Docker
  1. Mac 下载安装Docker desktop版本还是比较简单,到Dorker mac下载地址注册一个账号,下载docker dmg直接安装即可,这也是最简单的方法。
  2. 安装成功后,打开docker。

看到docker就在运行了。接下来打开终端工具进行操作会比较方便。
R成精系列-Mac os用R+Docker部署Rselenium搭建爬虫系统

##搭建Selenium环境
搭建Selenium环境主要分为三个步骤:
1 .启动docker
打开docker程序后,进入终端输入docker version即可查看docker版本,说明docker已经运行。网上有许多docker相关的教程,这里就不再赘述。
R成精系列-Mac os用R+Docker部署Rselenium搭建爬虫系统
4. 拉取Selenium镜像,我们这里拉取两个镜像1个Selenium hub镜像,1个Selenium chrome-node。Selenium镜像有许多,更多的请参考Selenium镜像列表。

docker pull selenium/hub
docker pull selenium/node-chrome

经过一段时间的下载,镜像就下载成功了,下载成功后就可以基于镜像启动容器。
5. 基于Selenium镜像,启动Selenium容器,启动一个selenium hub,一个chrome-node。

#单主机
docker run -d -p 4444:4444 --name selenium-hub selenium/hub
docker run -d --link selenium-hub:hub -v /dev/shm:/dev/shm selenium/node-chrome

启动一个hub,docker启动命令如下:docker run -d -p 4444:4444 --name selenium-hub selenium/hub.

做一些简单的说明:

  • run:通过镜像启动一个容器
  • -p:端口映射,5555是容器宿主机的端口就是我们docker这个轮船的端口,4444是我们容器的端口就是我们集装箱的端口。这说明了我们把容器的4444端口开放给docker主机的5555端口,那么我们就可以通过docker主机的5555端口来访问容器了,有点啰嗦~~~
  • -d:docker后台运行这个容器,我们知道运行server-standalone-2.52.0.jar这个包实际上是启动一个socket程序的,是在一个while循环中的。如果不启用后台运行的话,在xshell当前窗口是不能进行其他的操作的,当然你要再开一个窗口连接docker也可以。
  • --name:指定容器运行的别名,如果不指定会随机生成一个。
  • selenium/hub:就是我们要运行的镜像文件。

启动完hub后,我们启动一个node,启动node命令如下:
docker run -P -d --link selenium_hub:hub selenium/node-chrome做一些简单的说明:

  • run:和上文相同

  • -P:随机生成映射端口号,上文中的-p是指定特定的端口号,这里面是node我们并不需要知道容器内部的端口号,当然你要指定也可以,端口号不要冲突即可。

  • -d:后台运行与上文相同。

  • --link:说明我们这个容器是依赖上文中我们生成的容器selenium_hub,后面我们会提到link的使用。

  • selenium_hub:hub:前面的selenium_hub是我们上文中通过selenium/hub镜像启动容器的别名;后面的hub一定要写成hub或者HUB,写成其他启动失败,为什么这样我们后面会和- -link一起说明。

  • selenium/node-chrome:node的镜像。

启动了selenium/hubselenium/node后,我们运行docker ps - a有如下信息:
R成精系列-Mac os用R+Docker部署Rselenium搭建爬虫系统
这是selenium就启动了。
浏览器输入localhost:4444.可以查看Selenium Grid Hub的版本,也表示其运行正常。
R成精系列-Mac os用R+Docker部署Rselenium搭建爬虫系统

##启动R安装Rselenium包

install.packages("RSelenium")

##爬取页面

library(RSelenium)
remDr<-remoteDriver(port=4444L, browserName = "chrome")
remDr$open(silent = TRUE)#打开浏览器
[1] "Connecting to remote server"
$acceptInsecureCerts
[1] FALSE
$acceptSslCerts
[1] FALSE
$applicationCacheEnabled
[1] FALSE
$browserConnectionEnabled
[1] FALSE
$browserName
[1] "chrome"
$chrome
$chrome$chromedriverVersion
[1] "2.44.609551 (5d576e9a44fe4c5b6a07e568f1ebc753f1214634)"
$chrome$userDataDir
[1] "/tmp/.org.chromium.Chromium.YhY2Yo"
$cssSelectorsEnabled
[1] TRUE
$databaseEnabled
[1] FALSE
$`goog:chromeOptions`
$`goog:chromeOptions`$debuggerAddress
[1] "localhost:35767"
$handlesAlerts
[1] TRUE
$hasTouchScreen
[1] FALSE
$JavascriptEnabled
[1] TRUE
$locationContextEnabled
[1] TRUE
$mobileEmulationEnabled
[1] FALSE
$nativeEvents
[1] TRUE
$networkConnectionEnabled
[1] FALSE
$pageLoadStrategy
[1] "normal"
$platform
[1] "Linux"
$rotatable
[1] FALSE
$setWindowRect
[1] TRUE
$takesHeapSnapshot
[1] TRUE
$takesScreenshot
[1] TRUE
$unexpectedAlertBehaviour
[1] "ignore"
$version
[1] "70.0.3538.110"
$webStorageEnabled
[1] TRUE
$webdriver.remote.sessionid
[1] "d823c1c5d795381ab346daa2a32c7e87"
$id
[1] "d823c1c5d795381ab346daa2a32c7e87"
remDr$navigate("https://www.baidu.com")#爬取百度
remDr$getTitle()#获取title
remDr$screenshot(display = TRUE)#截图

R成精系列-Mac os用R+Docker部署Rselenium搭建爬虫系统

##结尾

用完后关闭、清除容器、关闭docker。

#清除(关闭全部容器) :
docker kill $(docker ps -a -q)  
docker stop $(docker ps -a -q)
#删除全部容器:
docker rm $(docker ps -a -q)

##参考
RSelenium Docker安装参考文档
Docker官方网站

sessionInfo()
R version 3.5.1 (2018-07-02)
Platform: x86_64-apple-darwin15.6.0 (64-bit)
Running under: macOS  10.14.1

Matrix products: default
BLAS: /System/Library/Frameworks/Accelerate.framework/Versions/A/Frameworks/vecLib.framework/Versions/A/libBLAS.dylib
LAPACK: /Library/Frameworks/R.framework/Versions/3.5/Resources/lib/libRlapack.dylib

locale:
[1] en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8

attached base packages:
[1] stats     graphics  grDevices utils     datasets 
[6] methods   base     

other attached packages:
[1] RSelenium_1.7.4

loaded via a namespace (and not attached):
 [1] httr_1.3.1       compiler_3.5.1   R6_2.3.0        
 [4] assertthat_0.2.0 tools_3.5.1      wdman_0.2.4     
 [7] binman_0.1.1     curl_3.2         yaml_2.2.0      
[10] Rcpp_1.0.0       jsonlite_1.5     caTools_1.17.1.1
[13] openssl_1.0.2    bitops_1.0-6     semver_0.2.0    
[16] XML_3.98-1.16   

推荐阅读
  • 从用户转型为开发者:一场思维升级的旅程 | 专访 StarRocks Committer 周威
    从用户转变为开发者,不仅是一次角色的转换,更是一场深刻的思维升级之旅。本次专访中,StarRocks Committer 周威分享了他如何在这一过程中逐步提升技术能力与思维方式,为开源社区贡献自己的力量。 ... [详细]
  • Python 实战:异步爬虫(协程技术)与分布式爬虫(多进程应用)深入解析
    本文将深入探讨 Python 异步爬虫和分布式爬虫的技术细节,重点介绍协程技术和多进程应用在爬虫开发中的实际应用。通过对比多进程和协程的工作原理,帮助读者理解两者在性能和资源利用上的差异,从而在实际项目中做出更合适的选择。文章还将结合具体案例,展示如何高效地实现异步和分布式爬虫,以提升数据抓取的效率和稳定性。 ... [详细]
  • Node.js 配置文件管理方法详解与最佳实践
    本文详细介绍了 Node.js 中配置文件管理的方法与最佳实践,涵盖常见的配置文件格式及其优缺点,并提供了多种实用技巧和示例代码,帮助开发者高效地管理和维护项目配置,具有较高的参考价值。 ... [详细]
  • 基于域名、端口和IP的虚拟主机构建方案
    本文探讨了在单台物理服务器上构建多个Web站点的虚拟主机方案,详细介绍了三种主要的虚拟主机类型:基于域名、基于IP地址和基于端口的虚拟主机。每种类型的实现方式及其优缺点均进行了深入分析,为实际应用提供了全面的技术指导。 ... [详细]
  • 基于Node.js的高性能实时消息推送系统通过集成Socket.IO和Express框架,实现了高效的高并发消息转发功能。该系统能够支持大量用户同时在线,并确保消息的实时性和可靠性,适用于需要即时通信的应用场景。 ... [详细]
  • 作为140字符的开创者,Twitter看似简单却异常复杂。其简洁之处在于仅用140个字符就能实现信息的高效传播,甚至在多次全球性事件中超越传统媒体的速度。然而,为了支持2亿用户的高效使用,其背后的技术架构和系统设计则极为复杂,涉及高并发处理、数据存储和实时传输等多个技术挑战。 ... [详细]
  • 浅析PHP中$_SERVER[
    在PHP后端开发中,`$_SERVER["HTTP_REFERER"]` 是一个非常有用的超级全局变量,它可以获取用户访问当前页面之前的URL。本文将详细介绍该变量的使用方法及其在不同场景下的应用,如页面跳转跟踪、安全验证和用户行为分析等。通过实例解析,帮助开发者更好地理解和利用这一功能。 ... [详细]
  • 如何利用Git实现高效的多人协作开发(远程仓库应用实例)——Ares Zhao
    Git作为一种分布式版本控制系统,每位开发者都是本地仓库的管理者。然而,为了实现团队间的高效协作,需要将本地的开发成果推送至远程共享仓库,以便其他成员能够同步更新。本文将以GitHub为例,详细介绍如何通过设置和使用远程仓库,实现多人协作开发的最佳实践。 ... [详细]
  • React项目基础教程第五课:深入解析组件间通信机制 ... [详细]
  • 探索偶数次幂二项式系数的求和方法及其数学意义 ... [详细]
  • 在订单服务启动过程中,首先会从Eureka服务器中查找已注册的配置中心,随后从Gitee配置仓库中获取特定的 `order-test.yml` 文件,以确保服务能够正确加载所需的配置信息。这一流程保证了配置管理的灵活性和可维护性。 ... [详细]
  • Spring Security 认证模块的项目构建与初始化
    本文详细介绍了如何构建和初始化Spring Security认证模块的项目。首先,通过创建一个分布式Maven聚合工程,该工程包含四个模块,分别为core、browser(用于演示)、app等,以构成完整的SeehopeSecurity项目。在项目构建过程中,还涉及日志生成机制,确保能够输出关键信息,便于调试和监控。 ... [详细]
  • 如何在PHP中准确检测字符是否为中文汉字
    本文详细介绍了在PHP中实现准确检测字符是否为中文汉字的方法。通过使用正则表达式和多字节字符串函数,开发者可以轻松判断输入值是否包含中文汉字。此外,文章还提供了示例代码和常见问题的解决方案,适用于各种开发环境,如Ubuntu系统和Web应用服务器配置。 ... [详细]
  • 优化后的标题:PHP分布式高并发秒杀系统设计与实现
    PHPSeckill是一个基于PHP、Lua和Redis构建的高效分布式秒杀系统。该项目利用php_apcu扩展优化性能,实现了高并发环境下的秒杀功能。系统设计充分考虑了分布式架构的可扩展性和稳定性,适用于大规模用户同时访问的场景。项目代码已开源,可在Gitee平台上获取。 ... [详细]
  • 轻松实现MySQL数据库自动备份【数据库管理】
    本文介绍了如何通过简单的步骤实现MySQL数据库的自动备份。具体方法是将一段脚本保存为批处理文件(.bat),该脚本可以定期执行数据库备份任务。此外,还提供了在不同操作系统和开发环境中配置备份任务的示例,包括VSCodium、Ubuntu代理设置以及Tomcat服务器的相关配置。这不仅提高了数据安全性,还简化了数据库管理流程。 ... [详细]
author-avatar
michael
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有