热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

的安装_Scrapy中的splash的安装应用

本文由编程笔记#小编为大家整理,主要介绍了Scrapy中的splash的安装应用相关的知识,希望对你有一定的参考价值。因为要去抓取部分经过
本文由编程笔记#小编为大家整理,主要介绍了Scrapy中的splash的安装应用相关的知识,希望对你有一定的参考价值。


  因为要去抓取部分经过Javascript渲染的网页数据,所以使用scrapy中的Request返回的是没有经过渲染的网页代码,

  因此我们就要运用Scrapy中的 splash 中的 SplashRequest 来进行操作。

  首先我们要使用安装scrapy-splash:

1、利用pip 安装 scrapy-splash

  pip install scrapy-splash

2、安装docker

  安装docker比较繁琐,首先要去官网下载docker工具 由于又是Windows7版本 所以下载的是DockerToolbox, 然后手动安装即可。

  然后安装过程中,会出现如下情况:(该图是网上找的)

技术分享图片

这种时候就要去GitHub里面下载boot2docker-18.03.0-ce文件并放到黄色线条路径处(每个人的路径可能不同),

红色箭头是下载地址  https://github.com/boot2docker/boot2docker/releases/tag/v18.03.0-ce ,

然后将下载到的文件放到指定地址后 等待运行(时间较长)

安装好之后 运行 Docker Quickstart Terminal,

然后输入  docker pull scrapinghub/splash

然后在输入  docker run -p 8050:8050 scrapinghub/splash

这样便开启了 docker 。

然后就可以开始运用 python中的 scrapy-splash 中的 SplashRequest

3、设定python中的 setting文件

SPLASH_URL = ‘http://192.168.99.100:8050‘ #(很重要写错了会出目标电脑积极拒绝)

添加Splash中间件,指定优先级:

DOWNLOADER_MIDDLEWARES = {
‘scrapy_splash.SplashCOOKIEsMiddleware‘: 723,
‘scrapy_splash.SplashMiddleware‘: 725,
‘scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware‘: 810,
}

 

设置Splash自己的去重过滤器 :
DUPEFILTER_CLASS = ‘scrapy_splash.SplashAwareDupeFilter‘


缓存后台存储介质:
HTTPCACHE_STORAGE = ‘scrapy_splash.SplashAwareFSCacheStorage‘ # 以上两条必加

 

4、运用SplashRequest:

这个运用方面 有一个需要特别注意 就是:

 yield SplashRequest(url=news_url, callback=self.down_load,args={"wait": 3})

 上面是使用 splashrequest的一个例子,其中一定要添加args={"wait": 3}   这一个标识延迟多久以后再将网页信息传送过来。









推荐阅读
  • EzPP 0.2发布,新增YAML布局渲染功能
    EzPP发布了0.2.1版本,新增了YAML布局渲染功能,可以将YAML文件渲染为图片,并且可以复用YAML作为模版,通过传递不同参数生成不同的图片。这个功能可以用于绘制Logo、封面或其他图片,让用户不需要安装或卸载Photoshop。文章还提供了一个入门例子,介绍了使用ezpp的基本渲染方法,以及如何使用canvas、text类元素、自定义字体等。 ... [详细]
  • 安装mysqlclient失败解决办法
    本文介绍了在MAC系统中,使用django使用mysql数据库报错的解决办法。通过源码安装mysqlclient或将mysql_config添加到系统环境变量中,可以解决安装mysqlclient失败的问题。同时,还介绍了查看mysql安装路径和使配置文件生效的方法。 ... [详细]
  • Windows下配置PHP5.6的方法及注意事项
    本文介绍了在Windows系统下配置PHP5.6的步骤及注意事项,包括下载PHP5.6、解压并配置IIS、添加模块映射、测试等。同时提供了一些常见问题的解决方法,如下载缺失的msvcr110.dll文件等。通过本文的指导,读者可以轻松地在Windows系统下配置PHP5.6,并解决一些常见的配置问题。 ... [详细]
  • 开发笔记:Java是如何读取和写入浏览器Cookies的
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了Java是如何读取和写入浏览器Cookies的相关的知识,希望对你有一定的参考价值。首先我 ... [详细]
  • 本文讨论了clone的fork与pthread_create创建线程的不同之处。进程是一个指令执行流及其执行环境,其执行环境是一个系统资源的集合。在调用系统调用fork创建一个进程时,子进程只是完全复制父进程的资源,这样得到的子进程独立于父进程,具有良好的并发性。但是二者之间的通讯需要通过专门的通讯机制,另外通过fork创建子进程系统开销很大。因此,在某些情况下,使用clone或pthread_create创建线程可能更加高效。 ... [详细]
  • 本文介绍了Composer依赖管理的重要性及使用方法。对于现代语言而言,包管理器是标配,而Composer作为PHP的包管理器,解决了PEAR的问题,并且使用简单,方便提交自己的包。文章还提到了使用Composer能够避免各种include的问题,避免命名空间冲突,并且能够方便地安装升级扩展包。 ... [详细]
  • 开源Keras Faster RCNN模型介绍及代码结构解析
    本文介绍了开源Keras Faster RCNN模型的环境需求和代码结构,包括FasterRCNN源码解析、RPN与classifier定义、data_generators.py文件的功能以及损失计算。同时提供了该模型的开源地址和安装所需的库。 ... [详细]
  • 本文总结了使用不同方式生成 Dataframe 的方法,包括通过CSV文件、Excel文件、python dictionary、List of tuples和List of dictionary。同时介绍了一些注意事项,如使用绝对路径引入文件和安装xlrd包来读取Excel文件。 ... [详细]
  • baresip android编译、运行教程1语音通话
    本文介绍了如何在安卓平台上编译和运行baresip android,包括下载相关的sdk和ndk,修改ndk路径和输出目录,以及创建一个c++的安卓工程并将目录考到cpp下。详细步骤可参考给出的链接和文档。 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • FeatureRequestIsyourfeaturerequestrelatedtoaproblem?Please ... [详细]
  • 本文介绍了如何通过conda安装Selenium的wheel文件,包括查看环境、卸载旧版本、下载新版本的wheel文件以及安装操作的步骤。同时提供了使用清华源的方法。 ... [详细]
  • Windows 7 部署工具DISM学习(二)添加补丁的步骤详解
    本文详细介绍了在Windows 7系统中使用部署工具DISM添加补丁的步骤。首先需要将光驱中的安装文件复制到指定文件夹,并进行挂载。然后将需要的MSU补丁解压并集成到系统中。文章给出了具体的命令和操作步骤,帮助读者完成补丁的添加过程。 ... [详细]
  • 1.直接在cmd窗口运行pipinstalljieba2.使用conda自带的安装工具condainstalljieba3.有一些模块是无法使用以上两种方式安装上ÿ ... [详细]
  • 本文介绍了操作系统的定义和功能,包括操作系统的本质、用户界面以及系统调用的分类。同时还介绍了进程和线程的区别,包括进程和线程的定义和作用。 ... [详细]
author-avatar
吉祥话如意
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有