当前位置: 开发笔记 > 编程语言 > 正文

超简单，只需4步爬取女神微博评论

作者：mobiledu2502869373 | 来源：互联网 | 2023-08-28 13:55

想去微博爬微博评论拿来做数据分析，拿以前写的代码用发现跑不起来了然后用浏览器登录微博看了下请求过程，发现规则确实变了。以前可以直接看到数据接口ÿ

想去微博爬微博评论拿来做数据分析&＃xff0c;拿以前写的代码用发现跑不起来了

然后用浏览器登录微博看了下请求过程&＃xff0c;发现规则确实变了。以前可以直接看到数据接口&＃xff0c;现在变复杂多了。

咋办呢&＃xff1f;

吭呲吭呲从0开始分析&＃xff1f;那样太低效了。

你遇到的坑肯定很多人都遇到过&＃xff0c;这个时候我们就没必要自己重新去踩了。直接从他们填好的坑上走过去就好了&＃xff0c;过蜀道如平川。

这里教你一个方法&＃xff0c;4步爬取微博评论。

第一步&＃xff1a;百度/Google

用搜素引擎搜关键字“微博评论爬虫 python”&＃xff0c; 基本上第一页的结果都是最近一年写的文章&＃xff0c;有一定时效性&＃xff0c;太早的文章就直接忽略。随便打开两篇你能看懂的文章&＃xff0c;记住&＃xff0c;看不懂不是你的问题&＃xff0c;是作者没写明白。

我搜到简书上的一篇文章&＃xff0c;地址&＃xff1a;https://www.jianshu.com/p/8dc04794e35f &＃xff0c; 不过按照她的方式操作已经不起效了&＃xff0c;因为微博的评论数据获取方式改了&＃xff0c;但是发现了一个很重要的线索。

第二步&＃xff1a;分析验证

虽然数据不再是通过接口的方法返回的&＃xff0c;但是老接口还能用 https://m.weibo.cn/api/comments/show?id&＃61;{id}&page&＃61;{page} &＃xff0c; 这里的id是某条微博的id&＃xff0c; page 是分页参数。

于是尝试用这个接口去获取数据

确实能拿到数据&＃xff0c;一共有40多万条数据&＃xff0c;每页10条&＃xff0c;41336页。当你正喜出望外的时候&＃xff0c;却发现只能获取最近50页的数据。把 page 参数改成 51 就不行了。

不难理解&＃xff0c;这种分页方式在MySQL中是效率非常低效的&＃xff0c;特别是遇到数据非常的时候&＃xff0c;所以用这种方式拿不到全部分页的数据是情理之中的。

幸好&＃xff0c;还有一个新接口&＃xff0c;https://m.weibo.cn/comments/hotflow?mid&＃61;4477013081328252&max_id&＃61;330569188932643&max_id_type&＃61;0

这个接口也能拿到评论&＃xff0c;mid 是某条微博的参数&＃xff0c; max_id 是分页参数&＃xff0c;这个参数可以从一个请求返回的数据中拿到

第三步&＃xff1a;写代码、测试

数据获取的原理搞懂了&＃xff0c; 就可以通过代码来实现&＃xff0c;几十万条数据就能唰唰的爬下来。

为了能够更好的做分析处理&＃xff0c;我决定叫数据保存到MongoDB&＃xff0c;它的好处就不介绍了&＃xff0c;反正就是省事。

直接上代码吧&＃xff01;

""" 爬取微博评论&＃xff0c;保存到数据库https://m.weibo.cn/api/comments/show?id&＃61;4477013081328252&page&＃61;50 该接口能获取微博的前50页数据&＃xff0c;每页10条&＃xff0c; id 是某条微博的idhttps://m.weibo.cn/comments/hotflow?mid&＃61;4477013081328252&max_id&＃61;330569188932643&max_id_type&＃61;0 此接口能爬到所有评论信息&＃xff0c; mid 是某条微博id&＃xff0c; max_id 是上一个请求返回的分页参数&＃xff0c; max_id_type 固定为0就好 """from pymongo import MongoClient import requests import time__author__ &＃61; &＃39;liuzhijun&＃39;headers &＃61; {"Host": "m.weibo.cn","User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) ""Version/9.0 Mobile/13B143 Safari/601.1","COOKIE": "xxxxx" # 这里将浏览器的COOKIE复制过来进行了。 }client &＃61; MongoClient(&＃39;mongodb://localhost:27017/&＃39;) db &＃61; client[&＃39;weibo&＃39;]def main(mid, max_id):""":param mid: 某条微博id:param max_id: 分页参数:return:"""url &＃61; "https://m.weibo.cn/comments/hotflow?max_id_type&＃61;0"params &＃61; {"mid": mid}if max_id:params[&＃39;max_id&＃39;] &＃61; max_idres &＃61; requests.get(url, params&＃61;params, headers&＃61;headers)print(res.content)result &＃61; res.json()max_id &＃61; result.get("data").get("max_id")data &＃61; result.get(&＃39;data&＃39;).get(&＃39;data&＃39;)for item in data:db[&＃39;comment&＃39;].insert_one(item)if max_id:time.sleep(1)main(mid, max_id)if __name__ &＃61;&＃61; &＃39;__main__&＃39;:main("4477013081328252", None)

最后数据整齐划一保存在数据库中

剩下的时候就可以做分析了

第4步&＃xff1a;关注公众号

这一步是可选项。核心代码就那么几行&＃xff0c;是不是觉得特别简单&＃xff0c;如果你会写HelloWorld&＃xff0c;那么这个代码对你来说也不难嘛&＃xff0c;这对做产品、做运营的时候来说&＃xff0c;简直就是救命药。再也不要求程序员哥哥要数据了。

把这边文章分享给你身边的朋友&＃xff0c;关注我一起搞数据啊。。。

如果你在爬数据过程中遇到任何问题可以微信加我 "yueryounali"

推荐阅读&＃xff1a;

爬虫大佬崔庆才&＃xff0c;手把手教你写爬虫

关注公众号&＃xff0c;学习Python

有帮助再打赏↓↓↓

推荐阅读

grid
Python爬虫使用MongoDB 提示No connection adapters were found for如何解决？

Python爬虫使用MongoDB 提示No connection adapters were found for如何解决？ ... [详细]

蜡笔小新 2023-09-17 18:18:42
import
Kettle 增量导出MongoDB到Mysql表中

一、需求：将MongoDB表中的数据按照时间戳增量抽取到Mysql表中。二、实现方式： 1.kettle 2.pytho ... [详细]

蜡笔小新 2023-09-25 17:42:54
数组
如何用 Python 在 MongoDB 中导入 JSON 文件？

如何用Python在MongoDB中导入JSON文件？ ... [详细]

蜡笔小新 2023-09-14 18:28:34
function
如何用 Python 为 MongoDB Collection 创建索引？

如何用Python为MongoDBCollection创建索引？ ... [详细]

蜡笔小新 2023-09-12 15:38:02
import
python爬虫之豆瓣音乐top250

回家很久了，实在熬不住，想起来爬点数据玩一玩，之前自己笔记本是win7加ubuntu16.04双系统，本打算在ubuntu里 ... [详细]

蜡笔小新 2023-09-12 11:48:53
install
如何在Django框架中实现对象关系映射（ORM）

本文介绍了Django框架中对象关系映射（ORM）的实现方式，通过ORM，开发者可以通过定义模型类来间接操作数据库表，从而简化数据库操作流程，提高开发效率。 ... [详细]

蜡笔小新 2024-11-21 17:17:01
import
Requests库的基本使用方法

本文介绍了Python中Requests库的基础用法，包括如何安装、GET和POST请求的实现、如何处理Cookies和Headers，以及如何解析JSON响应。相比urllib库，Requests库提供了更为简洁高效的接口来处理HTTP请求。 ... [详细]

蜡笔小新 2024-11-21 13:17:41
match
Web动态服务器Python基本实现

Web动态服务器Python基本实现 ... [详细]

蜡笔小新 2024-11-21 08:01:30
string
spring(22)JdbcTemplate

2019独角兽企业重金招聘Python工程师标准###1.导入jar包，必须jar包：c3p0、mysql-connector、beans、con ... [详细]

蜡笔小新 2024-11-18 19:49:32
install
（廿二）Python：MongoDB存储

大部分情况下爬取的数据特别灵活，不一定只有指定的几个字段数据，这时候就需要将数据存储在非关系型数据库中了，MongoDB是由C语言编写的& ... [详细]

蜡笔小新 2023-09-13 17:06:56
import
Python技巧：将相同元素聚合至矩阵

本文探讨了如何在Python中将具有相同值的元素分组到矩阵中，这是一个在数据分析和处理中常见的需求。 ... [详细]

蜡笔小新 2024-11-21 17:07:12
import
深入解析Python进程间通信：Queue与Pipe的应用

本文详细探讨了Python中进程间通信的两种常用方法——Queue和Pipe，并通过具体示例介绍了它们的基本概念、使用方法及注意事项。 ... [详细]

蜡笔小新 2024-11-18 12:41:55
install
用 Python 在 Windows 上安装 MongoDB

用Python在Windows上安装MongoDB原文 ... [详细]

蜡笔小新 2023-09-18 14:31:19
python
pymongo 介绍和使用示例

背景最近项目中用到了mongodb，并且用python的pymongo包操作。本文就把目前遇到的问题和学习经历做个小结，方便日后查询。Mongodb启动安装mongodbhttp ... [详细]

蜡笔小新 2023-09-16 15:39:07
install
python3.6爬虫库_python3.6之抓取LaGou网爬虫职位详解

目标：抓取LaGou网爬虫职位，下载于数据库MongoDB，并可视化于pycharm。我们采用：requests(获取)—— ... [详细]

蜡笔小新 2023-09-10 11:39:34

mobiledu2502869373

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章