当前位置: 开发笔记 > 编程语言 > 正文

python怎么爬取电影海报_Python爬虫“王者”：豆瓣海报爬取

作者：-Dear-xi | 来源：互联网 | 2023-07-14 15:24

我这里就以女神王祖贤的海报来作为例子。翻页分析在豆瓣电影中搜索“王祖贤”，进入王祖贤主页后，点击全部影人图片，进入到影人图片页面。在该页面

我这里就以女神王祖贤的海报来作为例子。

翻页分析

在豆瓣电影中搜索“王祖贤”，进入王祖贤主页后，点击全部影人图片，进入到影人图片页面。

在该页面点击下一页，可以看到浏览器的 URL 变化如下：

https://movie.douban.com/celebrity/1166896/photos/?type=C&start=30&sortby=like&size=a&subtype=a

继续使用 Postman 来分析 URL，可以很轻松的得知，start 就是类似于 page 的页数控制参数，而且步长为 30，即第一页是 start = 0，第二页为 start = 30，第三页为 start = 60，以此类推。

详情页分析

使用 Network 来查看页面上的图片信息：

这里我们得到了两个信息：

a 标签中的链接可以得到每张图片的评论信息；

img 标签中的链接可以用来保存女神的海报。

对于这两个信息 url，可以分别返回：

&＃39;&＃39;&＃39;

更多Python学习资料以及源码教程资料，可以在群821460695 免费获取

&＃39;&＃39;&＃39;

def get_posters():

comment_url_list = []

picture_list = []

for i in range(0, 40000, 30):

url = &＃39;https://movie.douban.com/celebrity/1166896/photos/?type=C&start=%s&sortby=like&size=a&subtype=a&＃39; % str(i)

req = requests.get(url).text

cOntent= BeautifulSoup(req, "html.parser")

chekc_point = content.find(&＃39;span&＃39;, attrs={&＃39;class&＃39;: &＃39;next&＃39;}).find(&＃39;a&＃39;)

if chekc_point != None:

data = content.find_all(&＃39;div&＃39;, attrs={&＃39;class&＃39;: &＃39;cover&＃39;})

for k in data:

ulist = k.find(&＃39;a&＃39;)[&＃39;href&＃39;]

plist = k.find(&＃39;img&＃39;)[&＃39;src&＃39;]

comment_url_list.append(ulist)

picture_list.append(plist)

else:

break

return comment_url_list, picture_list

之后，就可以下载海报了。

评论获取

然后我们手动跳转到每周海报的详情页面，继续查看评论信息。

通过 BeautifulSoup 可以很容易地获得评论信息，然后保存到 MongoDB 中。

def get_comment(comment_l):

client = pymongo.MongoClient(&＃39;mongodb://douban:douban1989@ds149744.mlab.com:49744/douban&＃39;)

db = client.douban

mongo_collection = db.comment

comment_list = []

comment = []

print("Save to MongoDB")

for i in comment_l:

respOnse= requests.get(i).text

cOntent= BeautifulSoup(response, "html.parser")

tmp_list = content.find_all(&＃39;div&＃39;, attrs={&＃39;class&＃39;: &＃39;comment-item&＃39;})

comment_list = comment_list + tmp_list

for k in comment_list:

tmp_comment = k.find(&＃39;p&＃39;).text

mongo_collection.insert_one({&＃39;comment&＃39;: tmp_comment})

comment.append(tmp_comment)

print("Save Finish!")

推荐阅读

list
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新 2024-12-28 08:54:34
go
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
list
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
list
词根词缀解析：greg、hap、helio及其他词源故事

本文基于刘洪波老师的《英文词根词缀精讲》，深入探讨了多个重要词根词缀的起源及其相关词汇，帮助读者更好地理解和记忆英语单词。 ... [详细]

蜡笔小新 2024-12-27 18:59:50
list
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
list
使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表

本文介绍了一段通用代码示例，该代码不仅能够操作 Azure Active Directory (AAD)，还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级：AAD 和 Subscription。 ... [详细]

蜡笔小新 2024-12-27 16:07:12
go
如何在PHPCMS V9中实现多站点功能并配置独立域名与动态URL

本文介绍如何在PHPCMS V9中创建和管理多个站点，包括配置独立域名、设置动态URL，并确保各子站能够正常运行。我们将详细讲解从新建站点到最终配置路由的每一步骤。 ... [详细]

蜡笔小新 2024-12-27 05:15:58
go
扫描线三巨头 hdu1928hdu 1255 hdu 1542 [POJ 1151]

学习链接：http:blog.csdn.netlwt36articledetails48908031学习扫描线主要学习的是一种扫描的思想，后期可以求解很 ... [详细]

蜡笔小新 2024-12-26 20:04:36
数组
PHP 编程疑难解析与知识点汇总

本文详细解答了 PHP 编程中的常见问题，并提供了丰富的代码示例和解决方案，帮助开发者更好地理解和应用 PHP 知识。 ... [详细]

蜡笔小新 2024-12-28 12:22:34
list
GWT PopupPanel onKeyDownPreview 方法详解与实例

本文详细介绍了 GWT 中 PopupPanel 类的 onKeyDownPreview 方法，提供了多个代码示例及应用场景，帮助开发者更好地理解和使用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:07:27
cmd
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
list
解决Uploadify在IE浏览器中的兼容性问题

本文详细介绍了如何解决Uploadify插件在Internet Explorer（IE）9和10版本中遇到的点击失效及JQuery运行时错误问题。通过修改相关JavaScript代码，确保上传功能在不同浏览器环境中的一致性和稳定性。 ... [详细]

蜡笔小新 2024-12-27 22:07:40
input
深入理解Tornado模板系统

本文详细介绍了Tornado框架中模板系统的使用方法。Tornado自带的轻量级、高效且灵活的模板语言位于tornado.template模块，支持嵌入Python代码片段，帮助开发者快速构建动态网页。 ... [详细]

蜡笔小新 2024-12-27 19:22:16
input
如何在ASP.NET中操作没有runat='server'属性的HTML元素

本文探讨了在不使用服务器控件的情况下，如何通过多种方法获取并修改页面中的HTML元素值。除了常见的AJAX方式，还介绍了其他可行的技术方案。 ... [详细]

蜡笔小新 2024-12-27 06:30:46
client
在 Linux 系统中部署 PostgreSQL 数据库

本文详细介绍了如何在 Linux 平台上安装和配置 PostgreSQL 数据库。通过访问官方资源并遵循特定的操作步骤，用户可以在不同发行版（如 Ubuntu 和 Red Hat）上顺利完成 PostgreSQL 的安装。 ... [详细]

蜡笔小新 2024-12-27 03:46:27

-Dear-xi

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章