热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Pythonspider(六)Scrapy中间件获取新闻

前言:Scrapy因为请求到的都是静态的数据,动态数据无法获取,拿应该怎么解决呢?1.获取新闻的第一步解析静态网址根据抓

前言:Scrapy因为请求到的都是静态的数据,动态数据无法获取,拿应该怎么解决呢?

1.获取新闻的第一步

解析静态网址

在这里插入图片描述
根据抓包可以查看是否是静态数据,根据固定的数据进行解析

2.使用selenium+中间件完成动态数据的解析

提示:chromedriver.exe文件需要到官网中查看对应的浏览器版本进行操作

# 在spider文件中
# 开启浏览器def __init__(self):self.bro = webdriver.Chrome(executable_path='D:\PY\chromedriver.exe')
# 在结束的时候关闭浏览器def closed(self, spider):self.bro.quit()

  • 结合 middlewares.py,对于数据返回值进行拦截:

# 4.通过中间件完成动态数据的获取def process_response(self, request, response, spider):bro = spider.bro# modules_url 是spider文件中添加的新闻网页数据,如果请求来自其中,则进行拦截返回客户端动态数据if request.url in spider.modules_url:bro.get(request.url)# 动态数据返回page_text = bro.page_sourcen_response = HtmlResponse(url=request.url, body=page_text, encoding='utf-8', request=request)return n_responseelse:return response

3.获取详情数据之后,开启管道持久化数据

fp = Nonedef open_spider(self, spider):print("开始爬虫")# 需要使用全局变量赋值self.fp = open('./news163item.txt', 'w', encoding='utf-8')def process_item(self, item, spider):# 3. 解析管道数据title = item['title']content = item['content']content = title + "\n" + contentself.fp.write(content)# 4.开启管道return itemdef close_spider(self, spider):print("结束爬虫")self.fp.close()

  • 配置文件settings中都需要开启:

DOWNLOADER_MIDDLEWARES = {'News163Item.middlewares.News163ItemDownloaderMiddleware': 543,
}ITEM_PIPELINES = {'News163Item.pipelines.News163ItemPipeline': 300,
}USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.84 Safari/537.36'ROBOTSTXT_OBEY = FalseLOG_LEVEL = 'ERROR'

最终获取结果
在这里插入图片描述


推荐阅读
  • 本文介绍了南邮ctf-web的writeup,包括签到题和md5 collision。在CTF比赛和渗透测试中,可以通过查看源代码、代码注释、页面隐藏元素、超链接和HTTP响应头部来寻找flag或提示信息。利用PHP弱类型,可以发现md5('QNKCDZO')='0e830400451993494058024219903391'和md5('240610708')='0e462097431906509019562988736854'。 ... [详细]
  • Python瓦片图下载、合并、绘图、标记的代码示例
    本文提供了Python瓦片图下载、合并、绘图、标记的代码示例,包括下载代码、多线程下载、图像处理等功能。通过参考geoserver,使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法,供读者参考使用。 ... [详细]
  • 本文介绍了响应式页面的概念和实现方式,包括针对不同终端制作特定页面和制作一个页面适应不同终端的显示。分析了两种实现方式的优缺点,提出了选择方案的建议。同时,对于响应式页面的需求和背景进行了讨论,解释了为什么需要响应式页面。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • 本文介绍了C#中数据集DataSet对象的使用及相关方法详解,包括DataSet对象的概述、与数据关系对象的互联、Rows集合和Columns集合的组成,以及DataSet对象常用的方法之一——Merge方法的使用。通过本文的阅读,读者可以了解到DataSet对象在C#中的重要性和使用方法。 ... [详细]
  • 1,关于死锁的理解死锁,我们可以简单的理解为是两个线程同时使用同一资源,两个线程又得不到相应的资源而造成永无相互等待的情况。 2,模拟死锁背景介绍:我们创建一个朋友 ... [详细]
  • 《数据结构》学习笔记3——串匹配算法性能评估
    本文主要讨论串匹配算法的性能评估,包括模式匹配、字符种类数量、算法复杂度等内容。通过借助C++中的头文件和库,可以实现对串的匹配操作。其中蛮力算法的复杂度为O(m*n),通过随机取出长度为m的子串作为模式P,在文本T中进行匹配,统计平均复杂度。对于成功和失败的匹配分别进行测试,分析其平均复杂度。详情请参考相关学习资源。 ... [详细]
  • 基于dlib的人脸68特征点提取(眨眼张嘴检测)python版本
    文章目录引言开发环境和库流程设计张嘴和闭眼的检测引言(1)利用Dlib官方训练好的模型“shape_predictor_68_face_landmarks.dat”进行68个点标定 ... [详细]
  • 移动端常用单位——rem的使用方法和注意事项
    本文介绍了移动端常用的单位rem的使用方法和注意事项,包括px、%、em、vw、vh等其他常用单位的比较。同时还介绍了如何通过JS获取视口宽度并动态调整rem的值,以适应不同设备的屏幕大小。此外,还提到了rem目前在移动端的主流地位。 ... [详细]
  • SpringMVC接收请求参数的方式总结
    本文总结了在SpringMVC开发中处理控制器参数的各种方式,包括处理使用@RequestParam注解的参数、MultipartFile类型参数和Simple类型参数的RequestParamMethodArgumentResolver,处理@RequestBody注解的参数的RequestResponseBodyMethodProcessor,以及PathVariableMapMethodArgumentResol等子类。 ... [详细]
  • 本文介绍了使用Python解析C语言结构体的方法,包括定义基本类型和结构体类型的字典,并提供了一个示例代码,展示了如何解析C语言结构体。 ... [详细]
  • 本文整理了常用的CSS属性及用法,包括背景属性、边框属性、尺寸属性、可伸缩框属性、字体属性和文本属性等,方便开发者查阅和使用。 ... [详细]
  • 本文由编程笔记#小编为大家整理,主要介绍了markdown[软件代理设置]相关的知识,希望对你有一定的参考价值。 ... [详细]
  • CSS|网格-行-结束属性原文:https://www.gee ... [详细]
  • 文章目录简介HTTP请求过程HTTP状态码含义HTTP头部信息Cookie状态管理HTTP请求方式简介HTTP协议(超文本传输协议)是用于从WWW服务 ... [详细]
author-avatar
只被你耐_396
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有