当前位置: 开发笔记 > 编程语言 > 正文

python大规模获取豆瓣影评_爬虫实战【11】Python获取豆瓣热门电影信息

作者：赤木律孑 | 来源：互联网 | 2023-05-28 17:23

之前我们从猫眼获取过电影信息，而且利用分析ajax技术，获取过今日头条的街拍图片。今天我们在豆瓣上获取一些热门电影的信息。页面分析首先࿰

之前我们从猫眼获取过电影信息&＃xff0c;而且利用分析ajax技术&＃xff0c;获取过今日头条的街拍图片。

今天我们在豆瓣上获取一些热门电影的信息。

页面分析

首先&＃xff0c;我们先来看一下豆瓣里面选电影的页面&＃xff0c;我们默认选择热门电影&＃xff0c;啥都不点了。

【插入图片&＃xff0c;豆瓣热门电影页面】

在选电影这个框中其实有很多标签的&＃xff0c;这个其实可以在url设置&＃xff0c;后面讲&＃xff0c;现在就用热门好了。

下面每部电影罗列出来&＃xff0c;包括电影封面&＃xff0c;评分&＃xff0c;电影名称等信息。

最下面是加载更多选项&＃xff0c;其实看到这个加载更多&＃xff0c;我就意识到这个页面肯定是用ajax技术实现的&＃xff0c;就跟今日头条街拍那次一样&＃xff0c;只不过不采用向下滚动&＃xff0c;而是点击按钮加载的方式。

是不是这样的&＃xff1f;我们看一下源代码。

果然都是一些js&＃xff0c;我就不放图了&＃xff0c;大家自己看一下就好了。

那么来看一下XHR了&＃xff0c;果然下面有几个json文件&＃xff0c;哈哈&＃xff0c;猜测是正确的。

【插入图片&＃xff0c;XHR分析】

这次的json信息很简介&＃xff0c;一个subjects下面就是各个电影的具体内容了&＃xff0c;我们通过json的loads方法&＃xff0c;就能够得到里面的信息了。

仍然是通过requests库来获取json信息&＃xff0c;消息头的话&＃xff0c;我们来看一下&＃xff1a;

【插入图片&＃xff0c;消息头分析】

这个url的前面部分是固定的&＃xff0c;后面是一些参数&＃xff0c;我们可以用urlencode来编码。

如果我们想要加载不同的页面&＃xff0c;只要改变这个url里面的page_start参数就好了

【插入图片&＃xff0c;加载更多】

获取到某条电影信息后&＃xff0c;我们就保存到mongodb数据库中。

代码展示

import requests

from urllib.parse import urlencode

import json

import pymongo

&＃39;&＃39;&＃39;MONGO设置&＃39;&＃39;&＃39;

MONGO_URL &＃61; &＃39;localhost&＃39;

MONGO_DB &＃61; &＃39;douban&＃39;

MONGO_Table &＃61; &＃39;热门&＃39;

client &＃61; pymongo.MongoClient(MONGO_URL)

db &＃61; client[MONGO_DB]

def get_movie_page(start_number):

data &＃61; {

&＃39;type&＃39;: &＃39;movie&＃39;,

&＃39;tag&＃39;: &＃39;热门&＃39;,

&＃39;sort&＃39;: &＃39;recommend&＃39;,

&＃39;page_limit&＃39;: 20,

&＃39;page_start&＃39;: start_number

}

url &＃61; &＃39;https://movie.douban.com/j/search_subjects?&＃39; &＃43; urlencode(data)

try:

response &＃61; requests.get(url)

if response.status_code &＃61;&＃61; 200:

# print(response.text)

return response.text

except Exception:

print(&＃39;请求出错&＃xff01;&＃39;)

return None

def parse_index_movie(html):

movie &＃61; json.loads(html)

result &＃61; []

if movie and &＃39;subjects&＃39; in movie.keys():

for item in movie.get(&＃39;subjects&＃39;):

film &＃61; {

&＃39;rate&＃39;: item.get(&＃39;rate&＃39;),

&＃39;title&＃39;: item.get(&＃39;title&＃39;),

&＃39;url&＃39;: item.get(&＃39;url&＃39;),

&＃39;cover&＃39;: item.get(&＃39;cover&＃39;)

}

result.append(film)

save_to_db(film)

return result

def save_to_db(film):

try:

if db[MONGO_Table].insert(film):

print(&＃39;保存成功&＃39;, film)

except Exception:

print(&＃39;保存出错&＃39;, film)

pass

def main():

for i in range(100):

html &＃61; get_movie_page(i*20)

parse_index_movie(html)

if __name__ &＃61;&＃61; &＃39;__main__&＃39;:

main()

【插入图片&＃xff0c;mongo数据】

至此&＃xff0c;我们得到了200多部热门电影的信息&＃xff0c;尤其是每部电影的url&＃xff0c;有了这个信息&＃xff0c;我们就能打开每部电影的评论页面&＃xff0c;获取到该部电影的短评。

这个留给明天再将。

推荐阅读

sum
H5技术实现经典游戏《贪吃蛇》

本文将分享一个使用HTML5技术实现的经典小游戏——《贪吃蛇》。通过H5技术，我们将探讨如何构建这款游戏的两种主要玩法：积分闯关和无尽模式。 ... [详细]

蜡笔小新 2024-11-21 20:16:59
header
Python3爬虫入门：pyspider的基本使用[python爬虫入门]

Python学习网有大量免费的Python入门教程，欢迎大家来学习。本文主要通过爬取去哪儿网的旅游攻略来给大家介绍pyspid ... [详细]

蜡笔小新 2024-11-22 18:00:41
get
Requests库的基本使用方法

本文介绍了Python中Requests库的基础用法，包括如何安装、GET和POST请求的实现、如何处理Cookies和Headers，以及如何解析JSON响应。相比urllib库，Requests库提供了更为简洁高效的接口来处理HTTP请求。 ... [详细]

蜡笔小新 2024-11-21 13:17:41
get
python爬虫爬取今日头条_python 爬虫抓取今日头条街拍图片

1.打开google浏览器，输入www.toutiao.com,搜索街拍。2.打开开发者选项，network监看加载的xhr,数据是ajax异步加载的 ... [详细]

蜡笔小新 2023-10-12 17:47:09
get
Ubuntu 14.04 环境下搭建 Caffe（仅限 CPU）

本文详细介绍了如何在 Ubuntu 14.04 系统上搭建仅使用 CPU 的 Caffe 深度学习框架，包括环境准备、依赖安装及编译过程。 ... [详细]

蜡笔小新 2024-11-22 16:43:30
get
探讨Java中将图像对象转换为文件和字节数组的方法

本文详细探讨了在Java中如何将图像对象转换为文件和字节数组（Byte[]）的技术。虽然网络上存在大量相关资料，但实际操作时仍需注意细节。本文通过使用JMSL 4.0库中的图表对象作为示例，提供了一种实用的方法。 ... [详细]

蜡笔小新 2024-11-21 21:42:59
get
python3 基础回忆录

整理于2020年10月下旬：总结过去，展望未来Itistoughtodayandtomorrowwillbetougher.butthedayaftertomorrowisbeau ... [详细]

蜡笔小新 2024-11-17 10:24:41
get
浅析python实现布隆过滤器及Redis中的缓存穿透原理_python

本文带你了解了位图的实现，布隆过滤器的原理及Python中的使用，以及布隆过滤器如何应对Redis中的缓存穿透，相信你对布隆过滤 ... [详细]

蜡笔小新 2024-11-13 16:43:07
main
（7）Python爬虫——爬取豆瓣电影Top250

利用python爬取豆瓣电影Top250的相关信息，包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容，然后将爬取的信息写入Exce ... [详细]

蜡笔小新 2024-11-13 11:35:24
数组
《Python3 网络爬虫开发实战》:高效实用的 MongoDB 文档存储

NoSQL，全称NotOnlySQL，意为不仅仅是SQL，泛指非关系型数据库。NoSQL是基于键值对的，而且不需要经过SQL ... [详细]

蜡笔小新 2023-10-13 12:58:52
cmd
pymongo 的几个常用操作

学到了MongoDBMongo是一个基于分布式文件存储的数据库,由C++编写,旨在为Web应用提供可拓展的高性能数据存储解决方案.它介于关系数据库和非关系数据库之间,在非关系数据 ... [详细]

蜡笔小新 2023-10-13 10:17:50
get
爬虫实践-爬取简书网用户动态信息

jianshuwanguser.py:importrequestsfromlxmlimportetreeimportpymongoclientpymongo.MongoClie ... [详细]

蜡笔小新 2023-10-12 18:37:57
get
JavaScript 跨域解决方案详解

本文详细介绍了JavaScript在不同域之间进行数据传输或通信的技术，包括使用JSONP、修改document.domain、利用window.name以及HTML5的postMessage方法等跨域解决方案。 ... [详细]

蜡笔小新 2024-11-22 16:27:56
get
Spring MVC 中利用拦截器与自定义注解实现权限控制

本文探讨了如何在 Spring MVC 框架下，通过自定义注解和拦截器机制来实现细粒度的权限管理功能。 ... [详细]

蜡笔小新 2024-11-22 14:35:02
get
利用Node.js实现PSD文件的高效切图

本文介绍了如何通过Node.js及其psd2json模块，快速实现PSD文件的自动化切图过程，以适应项目中频繁的界面更新需求。此方法不仅提高了工作效率，还简化了从设计稿到实际应用的转换流程。 ... [详细]

蜡笔小新 2024-11-22 13:21:24

赤木律孑

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章