Python如何爬取微信朋友圈

作者：白骨精哥哥_350 | 来源：互联网 | 2023-05-18 14:31

这篇文章主要为大家展示了“Python如何爬取微信朋友圈”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下

这篇文章主要为大家展示了“Python如何爬取微信朋友圈”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“Python如何爬取微信朋友圈”这篇文章吧。

前言

如果直接用 Charles 或 mitmproxy 来监听微信朋友圈的接口数据，这是无法实现爬取的，因为数据都是被加密的。而 Appium 不同，Appium 作为一个自动化测试工具可以直接模拟 App 的操作并可以获取当前所见的内容。所以只要 App 显示了内容，我们就可以用 Appium 抓取下来。

1. 本次目标

本节我们以 Android 平台为例，实现抓取微信朋友圈的动态信息。动态信息包括好友昵称、正文、发布日期。其中发布日期还需要进行转换，如日期显示为 1 小时前，则时间转换为今天，最后动态信息保存到 MongoDB。

2. 准备工作

请确保 PC 已经安装好 Appium、Android 开发环境和 Python 版本的 Appium API。Android 手机安装好微信 App、PyMongo 库，安装 MongoDB 并运行其服务，安装方法可以参考第 1 章。

3. 初始化

首先新建一个 Moments 类，进行一些初始化配置，如下所示：

PLATFORM = &＃39;Android&＃39;
DEVICE_NAME = &＃39;MI_NOTE_Pro&＃39;
APP_PACKAGE = &＃39;com.tencent.mm&＃39;
APP_ACTIVITY = &＃39;.ui.LauncherUI&＃39;
DRIVER_SERVER = &＃39;http://localhost:4723/wd/hub&＃39;
TIMEOUT = 300
MONGO_URL = &＃39;localhost&＃39;
MONGO_DB = &＃39;moments&＃39;
MONGO_COLLECTION = &＃39;moments&＃39;


class Moments():
def __init__(self):
"""初始化"""
# 驱动配置
self.desired_caps = {
&＃39;platformName&＃39;: PLATFORM,
&＃39;deviceName&＃39;: DEVICE_NAME,
&＃39;appPackage&＃39;: APP_PACKAGE,
&＃39;appActivity&＃39;: APP_ACTIVITY
}

self.driver = webdriver.Remote(DRIVER_SERVER, self.desired_caps)
self.wait = WebDriverWait(self.driver, TIMEOUT)
self.client = MongoClient(MONGO_URL)
self.db = self.client[MONGO_DB]
self.collection = self.db[MONGO_COLLECTION]

这里实现了一些初始化配置，如驱动的配置、延时等待配置、MongoDB 连接配置等。

4. 模拟登录

接下来要做的就是登录微信。点击登录按钮，输入用户名、密码，提交登录即可。实现样例如下所示：

def login(self):
# 登录按钮
login = self.wait.until(EC.presence_of_element_located((By.ID, &＃39;com.tencent.mm:id/cjk&＃39;)))
login.click()
# 手机输入
phone = self.wait.until(EC.presence_of_element_located((By.ID, &＃39;com.tencent.mm:id/h3&＃39;)))
phone.set_text(USERNAME)
# 下一步
next = self.wait.until(EC.element_to_be_clickable((By.ID, &＃39;com.tencent.mm:id/adj&＃39;)))
next.click()
# 密码
password = self.wait.until(EC.presence_of_element_located((By.XPATH, &＃39;//*[@resource-id="com.tencent.mm:id/h3"][1]&＃39;)))
password.set_text(PASSWORD)
# 提交
submit = self.wait.until(EC.element_to_be_clickable((By.ID, &＃39;com.tencent.mm:id/adj&＃39;)))
submit.click()

这里依次实现了一些点击和输入操作，思路比较简单。对于不同的平台和版本来说，流程可能不太一致，这里仅作参考。

登录完成之后，进入朋友圈的页面。选中朋友圈所在的选项卡，点击朋友圈按钮，即可进入朋友圈，代码实现如下所示：

def enter(self):
# 选项卡
tab = self.wait.until(EC.presence_of_element_located((By.XPATH, &＃39;//*[@resource-id="com.tencent.mm:id/bw3"][3]&＃39;)))
tab.click()
# 朋友圈
moments = self.wait.until(EC.presence_of_element_located((By.ID, &＃39;com.tencent.mm:id/atz&＃39;)))
moments.click()

抓取工作正式开始。

5. 抓取动态

我们知道朋友圈可以一直拖动、不断刷新，所以这里需要模拟一个无限拖动的操作，如下所示：

# 滑动点
FLICK_START_X = 300
FICK_START_Y = 300

FLICK_DISTANCE = 700


def crawl(self):

while True:

# 上滑

self.driver.swipe(FLICK_START_X, FLICK_START_Y + FLICK_DISTANCE, FLICK_START_X, FLICK_START_Y)

我们利用 swipe() 方法，传入起始和终止点实现拖动，加入无限循环实现无限拖动。

获取当前显示的朋友圈的每条状态对应的区块元素，遍历每个区块元素，再获取内部显示的用户名、正文和发布时间，代码实现如下所示：

# 当前页面显示的所有状态
items = self.wait.until(
EC.presence_of_all_elements_located((By.XPATH, &＃39;//*[@resource-id="com.tencent.mm:id/cve"]//android.widget.FrameLayout&＃39;)))
# 遍历每条状态
for item in items:
try:
 昵称

nickname = item.find_element_by_id(&＃39;com.tencent.mm:id/aig&＃39;).get_attribute(&＃39;text&＃39;)

# 正文

content = item.find_element_by_id(&＃39;com.tencent.mm:id/cwm&＃39;).get_attribute(&＃39;text&＃39;)

# 日期

date = item.find_element_by_id(&＃39;com.tencent.mm:id/crh&＃39;).get_attribute(&＃39;text&＃39;)

# 处理日期

date = self.processor.date(date)

print(nickname, content, date)

data = {

&＃39;nickname&＃39;: nickname,

&＃39;content&＃39;: content,

&＃39;date&＃39;: date,

}

except NoSuchElementException:

pass

这里遍历每条状态，再调用 find_element_by_id() 方法获取昵称、正文、发布日期对应的元素，然后通过 get_attribute() 方法获取内容。这样我们就成功获取到朋友圈的每条动态信息。

针对日期的处理，我们调用了一个 Processor 类的 date() 处理方法，该方法实现如下所示：

def date(self, datetime):
"""
处理时间
:param datetime: 原始时间
:return: 处理后时间
"""

if re.match(&＃39;d + 分钟前 &＃39;, datetime):
minute = re.match(&＃39;(d+)&＃39;, datetime).group(1)
datetime = time.strftime(&＃39;% Y-% m-% d&＃39;, time.localtime(time.time() - float(minute) * 60))
if re.match(&＃39;d + 小时前 &＃39;, datetime):
hour = re.match(&＃39;(d+)&＃39;, datetime).group(1)
datetime = time.strftime(&＃39;% Y-% m-% d&＃39;, time.localtime(time.time() - float(hour) * 60 * 60))
if re.match(&＃39; 昨天 &＃39;, datetime):
datetime = time.strftime(&＃39;% Y-% m-% d&＃39;, time.localtime(time.time() - 24 * 60 * 60))
if re.match(&＃39;d + 天前 &＃39;, datetime):
day = re.match(&＃39;(d+)&＃39;, datetime).group(1)
datetime = time.strftime(&＃39;% Y-% m-% d&＃39;, time.localtime(time.time()) - float(day) * 24 * 60 * 60)
return datetime

这个方法使用了正则匹配的方法来提取时间中的具体数值，再利用时间转换函数实现时间的转换。例如时间是 5 分钟前，这个方法先将 5 提取出来，用当前时间戳减去 300 即可得到发布时间的时间戳，然后再转化为标准时间即可。

最后调用 MongoDB 的 API 来实现爬取结果的存储。为了去除重复，这里调用了 update() 方法，实现如下所示：

self.collection.update({&＃39;nickname&＃39;: nickname, &＃39;content&＃39;: content}, {&＃39;$set&＃39;: data}, True)

首先根据昵称和正文来查询信息，如果信息不存在，则插入数据，否则更新数据。这个操作的关键点是第三个参数 True，此参数设置为 True，这可以实现存在即更新、不存在则插入的操作。

最后实现一个入口方法调用以上的几个方法。调用此方法即可开始爬取，代码实现如下所示：

def main(self):
# 登录
self.login()
# 进入朋友圈
self.enter()
# 爬取
self.crawl()

这样我们就完成了整个朋友圈的爬虫。代码运行之后，手机微信便会启动，并且可以成功进入到朋友圈然后一直不断执行拖动过程。控制台输出相应的爬取结果，结果被成功保存到 MongoDB 数据库中。

以上是“Python如何爬取微信朋友圈”这篇文章的所有内容，感谢各位的阅读！相信大家都有了一定的了解，希望分享的内容对大家有所帮助，如果还想学习更多知识，欢迎关注编程笔记行业资讯频道！

推荐阅读

text
IC卡操作功能实现

本文介绍了如何通过C#语言调用动态链接库（DLL）中的函数来实现IC卡的基本操作，包括初始化设备、设置密码模式、获取设备状态等，并详细展示了将TextBox中的数据写入IC卡的具体实现方法。 ... [详细]

蜡笔小新 2024-11-21 11:02:19
text
MySQL Decimal 类型的最大值解析及其在数据处理中的应用艺术

在关系型数据库中，表的设计与SQL语句的编写对性能的影响至关重要，甚至可占到90%以上。本文将重点探讨MySQL中Decimal类型的最大值及其在数据处理中的应用技巧，通过实例分析和优化建议，帮助读者深入理解并掌握这一重要知识点。 ... [详细]

蜡笔小新 2024-11-11 19:36:19
text
处理Android EditText中数字输入与parseInt方法

本文探讨了如何在Android应用中从EditText组件安全地获取并解析用户输入的数字，特别是用于设置端口号的情况。通过示例代码和异常处理策略，展示了有效的方法来避免因非法输入导致的应用崩溃。 ... [详细]

蜡笔小新 2024-11-21 20:37:54
text
Maven + Spring + MyBatis + MySQL 环境搭建与实例解析

本文详细介绍如何使用MySQL数据库进行环境搭建，包括创建数据库表并插入示例数据。随后，逐步指导如何配置Maven项目，整合Spring框架与MyBatis，实现高效的数据访问。 ... [详细]

蜡笔小新 2024-11-21 18:39:23
bit
UVALive 8201 - BBP 公式计算圆周率

在1995年，Simon Plouffe 发现了一种特殊的求和方法来表示某些常数。两年后，Bailey 和 Borwein 在他们的论文中发表了这一发现，这种方法被命名为 Bailey-Borwein-Plouffe (BBP) 公式。该问题要求计算圆周率 π 的第 n 个十六进制数字。 ... [详细]

蜡笔小新 2024-11-21 18:32:57
java
Java 中的十进制样式 getZeroDigit()方法，示例

Java 中的十进制样式 getZeroDigit()方法，示例 ... [详细]

蜡笔小新 2024-11-21 16:53:03
java
JUnit下的测试和suite

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2024-11-21 16:03:49
java
Singleton单例模式和DoubleChecked Locking双重检查锁定模式

问题描述现在，不管开发一个多大的系统（至少我现在的部门是这样的），都会带一个日志功能；在实际开发过程中 ... [详细]

蜡笔小新 2024-11-21 15:14:45
text
Web动态服务器Python基本实现

Web动态服务器Python基本实现 ... [详细]

蜡笔小新 2024-11-21 08:01:30
text
理解浏览器历史记录（2）hashchange、pushState

阅读目录1.hashchange2.pushState本文也是一篇基础文章。继上文之后，本打算去研究pushState，偶然在一些信息中发现了锚点变 ... [详细]

蜡笔小新 2024-11-20 20:05:37
go
Jupyter Notebook多语言环境搭建指南

本文详细介绍了如何在Linux环境下为Jupyter Notebook配置Python、Python3、R及Go四种编程语言的环境，包括必要的软件安装和配置步骤。 ... [详细]

蜡笔小新 2024-11-20 18:37:27
text
深入理解：AJAX学习指南

本文详细探讨了AJAX的基本概念、工作原理及其在现代Web开发中的应用，旨在为初学者提供全面的学习资料。 ... [详细]

蜡笔小新 2024-11-20 17:58:54
future
ABAP开发者需关注的几大关键问题

长期从事ABAP开发工作的专业人士，在面对行业新趋势时，往往需要重新审视自己的发展方向。本文探讨了几位资深专家对ABAP未来走向的看法，以及开发者应如何调整技能以适应新的技术环境。 ... [详细]

蜡笔小新 2024-11-21 18:21:06
future
Ryanair Expands Frankfurt Operations, Challenges Lufthansa's Dominance

Irish budget airline Ryanair announced plans to significantly increase its route network from Frankfurt Airport, marking a direct challenge to Lufthansa, Germany's leading carrier. ... [详细]

蜡笔小新 2024-11-21 13:09:01
java
java语言基础数据类型：详解

数据类型--char一、char1.1char占用2个字节char取值范围：【0~65535】char采用unicode编码方式char类型的字面量用单引号括起来char可以存储一 ... [详细]

蜡笔小新 2024-11-21 08:47:17

白骨精哥哥_350

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章