当前位置: 开发笔记 > 编程语言 > 正文

Python3爬虫从零开始：抓取天猫电影排行

作者：钢铁猪991884679 | 来源：互联网 | 2023-09-23 21:37

抓取分析首先打开要抓取的目标站点：http:maoyan.comboard4我们需要爬取得实惠电影名称、主演、评分等信息。可以看到在这个页面只有10部影片࿰

抓取分析

首先打开要抓取的目标站点&＃xff1a;http://maoyan.com/board/4

我们需要爬取得实惠电影名称、主演、评分等信息。可以看到在这个页面只有10部影片&＃xff0c;而我们需要爬取前100&＃xff0c;也就是需要爬取10页。

滚动到最下方分页列表&＃xff0c;打开下一页&＃xff0c;可以看到页面的URL发生了变化&＃xff0c;多了参数offset&＃61;10。根据这个规律&＃xff0c;我们可以通过改变URL的offset参数请求10次即可。

补充&＃xff1a;确定一个网站是否可被爬取&＃xff0c;可以先在网站根目录下查看Robots协议确定是否可爬&＃xff1a;

抓取一页

这里&＃xff0c;我们将提取一页的代码用一个函数表示&＃xff1a;

def get_one_page(url):headers &＃61; {&＃39;User-Agent&＃39;:&＃39;Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.17 Safari/537.36&＃39;,}response &＃61; requests.get(url,headers &＃61; headers)if response.status_code &＃61;&＃61; 200:return response.textreturn Nonedef main():url &＃61; &＃39;http://maoyan.com/board/4&＃39;html &＃61; get_one_page(url)print(html)main()

这样就可以得到我们的页面源代码。

正则提取

这里&＃xff0c;我们要按需进行提取&＃xff0c;网页源码信息那么多&＃xff0c;但是我们只需要提取我们需求的影片信息。因此&＃xff0c;需要对源码进行正则提取&＃xff0c;首先就要找到我们需要的信息的源码部分。F12在网页中打开【开发者模式】&＃xff0c;在【Network】中左边打开4?offset&＃61;0的文件&＃xff0c;可以看到源代码。

&＃xff01;注意&＃xff0c;不要在【Elements】中直接查看源码&＃xff0c;因为【Elements】中的源码可能经过Javascript操作&＃xff08;如果有的话&＃xff09;与原始请求页面不一样。

根据我们需要提取的信息构造我们的正则表达式&＃xff1a;

#排名信息&＃xff1a;

.*?board-index.*?>(.*?)

#图片信息&＃xff1a;

.*?board-index.*?>(.*?).*?data-src&＃61;"(.*?)"

#名字信息&＃xff1a;

.*?board-index.*?>(.*?).*?data-src&＃61;"(.*?)".*?name.*?a.*?>(.*?)

#主演等等&＃xff1a;

.*?board-index.*?>(.*?).*?data-src&＃61;"(.*?)".*?name.*?a.*?>(.*?).*?star">(.*?)

.*?releasetime">(.*?)

.*?integer">(.*?).*?fraction">(.*?).*?

def parse_one_page(html):pattern &＃61; re.compile(&＃39;

.*?board-index.*?>(.*?)&＃39;&＃39;.*?data-src&＃61;"(.*?)".*?name.*?a.*?>(.*?)&＃39;&＃39;.*?star">(.*?)
.*?releasetime">(.*?)
&＃39;&＃39;.*?integer">(.*?).*?fraction">(.*?).*?

&＃39;, re.S)items &＃61; re.findall(pattern,html)print(items)

结果&＃xff1a;

完整代码

import reimport requestsimport jsondef get_one_page(url):headers &＃61; {&＃39;User-Agent&＃39;:&＃39;Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.17 Safari/537.36&＃39;,}response &＃61; requests.get(url,headers &＃61; headers)if response.status_code &＃61;&＃61; 200:return response.textreturn Nonedef main(offset):url &＃61; &＃39;http://maoyan.com/board/4?offset&＃61;&＃39;&＃43; str(offset)html &＃61; get_one_page(url)for item in parse_one_page(html):write_to_file(item)#排名信息&＃xff1a;

.*?board-index.*?>(.*?)#图片信息&＃xff1a;

.*?board-index.*?>(.*?).*?data-src&＃61;"(.*?)"#名字信息&＃xff1a;

.*?board-index.*?>(.*?).*?data-src&＃61;"(.*?)".*?name.*?a.*?>(.*?)#主演等等综合&＃xff1a;

.*?board-index.*?>(.*?).*?data-src&＃61;"(.*?)".*?name.*?a.*?>(.*?).*?star">(.*?)
.*?releasetime">(.*?)
.*?integer">(.*?).*?fraction">(.*?).*?

def parse_one_page(html):pattern &＃61; re.compile(&＃39;.*?board-index.*?>(.*?)&＃39;&＃39;.*?data-src&＃61;"(.*?)".*?name.*?a.*?>(.*?)&＃39;&＃39;.*?star">(.*?)
.*?releasetime">(.*?)
&＃39;&＃39;.*?integer">(.*?).*?fraction">(.*?).*?
&＃39;, re.S)items &＃61; re.findall(pattern,html)#整理数据#for item in items:yield{&＃39;index&＃39;: item[0],&＃39;image&＃39;: item[1],&＃39;title&＃39;: item[2].strip(),&＃39;actor&＃39;: item[3].strip()[3:],&＃39;time&＃39; : item[4].strip()[5:],&＃39;score&＃39;: item[5].strip() &＃43; item[6].strip()}print(items)def write_to_file(content): #写入文件with open(&＃39;result.txt&＃39;,&＃39;a&＃39;,encoding&＃61;&＃39;utf-8&＃39;) as f:# print(content)f.write(json.dumps(content,ensure_ascii&＃61;False)&＃43;&＃39;\n&＃39;) #json.dumps()是将dict转化成str格式if __name__ &＃61;&＃61; &＃39;__main__&＃39;: #这里没有这一行也可以for i in range(10):main(offset&＃61;i*10)

结果&＃xff1a;

补充&＃xff1a; if __name__ &＃61;&＃61; &＃39;__main__&＃39;的意思是&＃xff1a;当.py文件被直接运行时&＃xff0c;if __name__ &＃61;&＃61; &＃39;__main__&＃39;之下的代码块将被运行&＃xff1b;当.py文件以模块形式被导入时&＃xff0c;if __name__ &＃61;&＃61; &＃39;__main__&＃39;之下的代码块不被运行。

参考见博客&＃xff1a;https://blog.csdn.net/yjk13703623757/article/details/77918633

推荐阅读

runtime
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
cmd
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
javascript
如何使用JavaScript或jQuery检测文本框焦点状态和鼠标悬停事件

本文介绍了如何利用JavaScript或jQuery来判断网页中的文本框是否处于焦点状态，以及如何检测鼠标是否悬停在指定的HTML元素上。 ... [详细]

蜡笔小新 2024-12-27 21:33:33
数组
JQuery基础：省市联动与表单验证

本文介绍了如何使用JQuery实现省市二级联动和表单验证。首先，通过change事件监听用户选择的省份，并动态加载对应的城市列表。其次，详细讲解了使用Validation插件进行表单验证的方法，包括内置规则、自定义规则及实时验证功能。 ... [详细]

蜡笔小新 2024-12-27 17:10:48
web
自己用过的一些比较有用的css3新属性【HTML】

web前端|html教程自己用过的一些比较用的css3新属性web前端-html教程css3刚推出不久，虽然大多数的css3属性在很多流行的浏览器中不支持，但我个人觉得还是要尽量开 ... [详细]

蜡笔小新 2024-12-24 19:26:54
数组
JavaScript 中创建对象的多种方法

本文详细介绍了 JavaScript 中创建对象的几种常见方式，包括对象字面量、构造函数和 Object.create 方法，并提供了示例代码和属性描述符的解释。 ... [详细]

蜡笔小新 2024-12-22 16:40:51
web
并发编程 12—— 任务取消与关闭之 shutdownNow 的局限性

Java并发编程实践目录并发编程01——ThreadLocal并发编程02——ConcurrentHashMap并发编程03——阻塞队列和生产者-消费者模式并发编程04——闭锁Co ... [详细]

蜡笔小新 2024-12-21 12:39:07
utf-8
Python3 中使用 lxml 模块解析 XPath 数据详解

XPath 是一种用于在 XML 文档中查找信息的路径语言，同样适用于 HTML 文件的搜索。本文将详细介绍如何利用 Python 的 lxml 模块通过 XPath 技术高效地解析和抓取网页数据。 ... [详细]

蜡笔小新 2024-12-20 11:23:22
list
解决Uploadify在IE浏览器中的兼容性问题

本文详细介绍了如何解决Uploadify插件在Internet Explorer（IE）9和10版本中遇到的点击失效及JQuery运行时错误问题。通过修改相关JavaScript代码，确保上传功能在不同浏览器环境中的一致性和稳定性。 ... [详细]

蜡笔小新 2024-12-27 22:07:40
list
导航栏样式练习：项目实例解析

本文详细介绍了如何创建一个具有动态效果的导航栏，包括HTML、CSS和JavaScript代码的实现，并附有详细的说明和效果图。 ... [详细]

蜡笔小新 2024-12-27 19:42:28
go
网络链路质量监控：Smokeping部署与配置

本文详细介绍了如何在Linux系统上安装和配置Smokeping，以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装，确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]

蜡笔小新 2024-12-27 19:31:05
utf-8
HTML5与JavaScript实现本地文件读取、写入及路径获取

本文探讨了如何利用HTML5和JavaScript在浏览器中进行本地文件的读取和写入操作，并介绍了获取本地文件路径的方法。HTML5提供了一系列API，使得这些操作变得更加简便和安全。 ... [详细]

蜡笔小新 2024-12-20 18:36:06
数组
JavaScript前端开发中常用的四种继承方法详解

本文深入探讨了JavaScript中实现继承的四种常见方法，包括原型链继承、构造函数继承、组合继承和寄生组合继承。对于正在学习或从事Web前端开发的技术人员来说，理解这些继承模式对于提高代码质量和维护性至关重要。 ... [详细]

蜡笔小新 2024-12-18 11:08:28
web
探讨GET与POST请求数据传输的最大容量

在Web开发领域，GET和POST是最常见的两种数据传输方法。本文将深入探讨这两种请求方式在不同环境下的数据传输能力及其限制。 ... [详细]

蜡笔小新 2024-12-15 12:05:33
list
使用Python爬虫技术从网页中提取图片链接的方法与示例

本篇文章将详细介绍如何通过Python编程语言来实现从指定网页上抓取图片链接的功能，并提供了一个实用的代码示例。 ... [详细]

蜡笔小新 2024-12-15 11:58:32

钢铁猪991884679

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章