Python3爬虫实战mitmdump爬取App电子书信息的操作流程

作者：左手抽烟吹寂寞 | 来源：互联网 | 2023-05-17 21:18

小编给大家分享一下Python3爬虫实战mitmdump爬取App电子书信息的操作流程，希望大家阅读完这篇文章后大所收获，下面让我们一起去探讨吧！mitmdum

小编给大家分享一下Python3爬虫实战mitmdump爬取App电子书信息的操作流程，希望大家阅读完这篇文章后大所收获，下面让我们一起去探讨吧！

mitmdump 爬取 “得到” App 电子书信息

“得到” App 是罗辑思维出品的一款碎片时间学习的 App，其官方网站为 https://www.igetget.com，App 内有很多学习资源。不过 “得到” App 没有对应的网页版，所以信息必须要通过 App 才可以获取。这次我们通过抓取其 App 来练习 mitmdump 的用法。

1. 爬取目标

我们的爬取目标是 App 内电子书版块的电子书信息，并将信息保存到 MongoDB，如图 11-30 所示。

Python3爬虫实战mitmdump爬取App电子书信息的操作流程

我们要把图书的名称、简介、封面、价格爬取下来，不过这次爬取的侧重点还是了解 mitmdump 工具的用法，所以暂不涉及自动化爬取，App 的操作还是手动进行。mitmdump 负责捕捉响应并将数据提取保存。

2. 准备工作

请确保已经正确安装好了 mitmproxy 和 mitmdump，手机和 PC 处于同一个局域网下，同时配置好了 mitmproxy 的 CA 证书，安装好 MongoDB 并运行其服务，安装 PyMongo 库，具体的配置可以参考第 1 章的说明。

3. 抓取分析

首先探寻一下当前页面的 URL 和返回内容，我们编写一个脚本如下所示：

def response(flow):
    print(flow.request.url)
    print(flow.response.text)

这里只输出了请求的 URL 和响应的 Body 内容，也就是请求链接和响应内容这两个最关键的部分。脚本保存名称为 script.py。

接下来运行 mitmdump，命令如下所示：

mitmdump -s script.py

打开 “得到” App 的电子书页面，便可以看到 PC 端控制台有相应输出。接着滑动页面加载更多电子书，控制台新出现的输出内容就是 App 发出的新的加载请求，包含了下一页的电子书内容。控制台输出结果示例如图 11-31 所示。

Python3爬虫实战mitmdump爬取App电子书信息的操作流程

图 11-31 控制台输出

可以看到 URL 为 https://dedao.igetget.com/v3/discover/bookList 的接口，其后面还加了一个 sign 参数。通过 URL 的名称，可以确定这就是获取电子书列表的接口。在 URL 的下方输出的是响应内容，是一个 JSON 格式的字符串，我们将它格式化，如图 11-32 所示。

Python3爬虫实战mitmdump爬取App电子书信息的操作流程

图 11-32 格式化结果

格式化后的内容包含一个 c 字段、一个 list 字段，list 的每个元素都包含价格、标题、描述等内容。第一个返回结果是电子书《情人》，而此时 App 的内容也是这本电子书，描述的内容和价格也是完全匹配的，App 页面如图 11-33 所示。

Python3爬虫实战mitmdump爬取App电子书信息的操作流程

图 11-33 APP 页面

这就说明当前接口就是获取电子书信息的接口，我们只需要从这个接口来获取内容就好了。然后解析返回结果，将结果保存到数据库。

4. 数据抓取

接下来我们需要对接口做过滤限制，抓取如上分析的接口，再提取结果中的对应字段。

这里，我们修改脚本如下所示：

import json
from mitmproxy import ctx
def response(flow):
    url = &＃39;https://dedao.igetget.com/v3/discover/bookList&＃39;
    if flow.request.url.startswith(url):
        text = flow.response.text
        data = json.loads(text)
        books = data.get(&＃39;c&＃39;).get(&＃39;list&＃39;)
        for book in books:
            ctx.log.info(str(book))

重新滑动电子书页面，在 PC 端控制台观察输出，如图 11-34 所示。

Python3爬虫实战mitmdump爬取App电子书信息的操作流程

图 11-34 控制台输出

现在输出了图书的全部信息，一本图书信息对应一条 JSON 格式的数据。

5. 提取保存

接下来我们需要提取信息，再把信息保存到数据库中。方便起见，我们选择 MongoDB 数据库。

脚本还可以增加提取信息和保存信息的部分，修改代码如下所示：

import json
import pymongo
from mitmproxy import ctx
client = pymongo.MongoClient(&＃39;localhost&＃39;)
db = client[&＃39;igetget&＃39;]
collection = db[&＃39;books&＃39;]
def response(flow):
    global collection
    url = &＃39;https://dedao.igetget.com/v3/discover/bookList&＃39;
    if flow.request.url.startswith(url):
        text = flow.response.text
        data = json.loads(text)
        books = data.get(&＃39;c&＃39;).get(&＃39;list&＃39;)
        for book in books:
            data = {&＃39;title&＃39;: book.get(&＃39;operating_title&＃39;),
                &＃39;cover&＃39;: book.get(&＃39;cover&＃39;),
                &＃39;summary&＃39;: book.get(&＃39;other_share_summary&＃39;),
                &＃39;price&＃39;: book.get(&＃39;price&＃39;)
            }
            ctx.log.info(str(data))
            collection.insert(data)

重新滑动页面，控制台便会输出信息，如图 11-35 所示。

Python3爬虫实战mitmdump爬取App电子书信息的操作流程

图 11-35 控制台输出

现在输出的每一条内容都是经过提取之后的内容，包含了电子书的标题、封面、描述、价格信息。

最开始我们声明了 MongoDB 的数据库连接，提取出信息之后调用该对象的 insert() 方法将数据插入到数据库即可。

滑动几页，发现所有图书信息都被保存到 MongoDB 中，如图 11-36 所示。

Python3爬虫实战mitmdump爬取App电子书信息的操作流程

目前为止，我们利用一个非常简单的脚本把 “得到” App 的电子书信息保存下来。

看完了这篇文章，相信你对Python3爬虫实战mitmdump爬取App电子书信息的操作流程有了一定的了解，想了解更多相关知识，欢迎关注编程笔记行业资讯频道，感谢各位的阅读！

推荐阅读

python
如何用 Python 在 MongoDB 中导入 JSON 文件？

如何用Python在MongoDB中导入JSON文件？ ... [详细]

蜡笔小新 2023-09-14 18:28:34
python
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
python
安装mysqlclient失败解决办法

本文介绍了在MAC系统中，使用django使用mysql数据库报错的解决办法。通过源码安装mysqlclient或将mysql_config添加到系统环境变量中，可以解决安装mysqlclient失败的问题。同时，还介绍了查看mysql安装路径和使配置文件生效的方法。 ... [详细]

蜡笔小新 2023-12-14 18:24:10
python
Python3中选择文件对话框的格式打开和保存图片

本文介绍了在Python3中如何使用选择文件对话框的格式打开和保存图片的方法。通过使用tkinter库中的filedialog模块的asksaveasfilename和askopenfilename函数，可以方便地选择要打开或保存的图片文件，并进行相关操作。具体的代码示例和操作步骤也被提供。 ... [详细]

蜡笔小新 2023-12-14 17:46:55
python
向QTextEdit拖放文件的方法及实现步骤

本文介绍了在使用QTextEdit时如何实现拖放文件的功能，包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数，并结合QMimeData和QUrl等类，可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]

蜡笔小新 2023-12-14 16:06:38
python
Java String与StringBuffer的区别及其应用场景

本文主要介绍了Java中String和StringBuffer的区别，String是不可变的，而StringBuffer是可变的。StringBuffer在进行字符串处理时不生成新的对象，内存使用上要优于String类。因此，在需要频繁对字符串进行修改的情况下，使用StringBuffer更加适合。同时，文章还介绍了String和StringBuffer的应用场景。 ... [详细]

蜡笔小新 2023-12-13 19:21:06
python
计算机网络初识及通信流程分析

本文介绍了计算机网络的定义和通信流程，包括客户端编译文件、二进制转换、三层路由设备等。同时，还介绍了计算机网络中常用的关键词，如MAC地址和IP地址。 ... [详细]

蜡笔小新 2023-12-13 16:50:29
python
第四章高阶函数（参数传递、高阶函数、lambda表达式）（python进阶）的讲解和应用

本文主要讲解了第四章高阶函数（参数传递、高阶函数、lambda表达式）的相关知识，包括函数参数传递机制和赋值机制、引用传递的概念和应用、默认参数的定义和使用等内容。同时介绍了高阶函数和lambda表达式的概念，并给出了一些实例代码进行演示。对于想要进一步提升python编程能力的读者来说，本文将是一个不错的学习资料。 ... [详细]

蜡笔小新 2023-12-12 15:52:48
python
InnoDB存储引擎——内存

上图是InnoDB存储引擎的结构。1、缓冲池InnoDB存储引擎是基于磁盘存储的，并将其中的记录按照页的方式进行管理。因此可以看作是基于磁盘的数据库系统。在数据库系统中，由于CPU速度 ... [详细]

蜡笔小新 2023-12-10 19:47:18
python
pymongo 的几个常用操作

学到了MongoDBMongo是一个基于分布式文件存储的数据库,由C++编写,旨在为Web应用提供可拓展的高性能数据存储解决方案.它介于关系数据库和非关系数据库之间,在非关系数据 ... [详细]

蜡笔小新 2023-10-13 10:17:50
python
config设置源使用pip_最全的 pip 使用指南，50 % 你可能都没用过~

所有的Python开发者都清楚，Python之所以如此受欢迎，能够在众多高级语言中，脱颖而出，除了语法简单，上 ... [详细]

蜡笔小新 2023-09-25 17:03:35
python
pymongo 介绍和使用示例

背景最近项目中用到了mongodb，并且用python的pymongo包操作。本文就把目前遇到的问题和学习经历做个小结，方便日后查询。Mongodb启动安装mongodbhttp ... [详细]

蜡笔小新 2023-09-16 15:39:07
python
怎么用Python来统计知识星球打卡作业

本篇内容主要讲解“怎么用Python来统计知识星球打卡作业”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大 ... [详细]

蜡笔小新 2023-09-15 16:59:09
java
自制信息检索网站（二）——分析掘金数据

今天继续自制信息检索网站的第二步，简单的分析一下掘金的数据。在上次第一步得到数据后通过简单的数据清洗可视化来看一看掘金。本次使用的是jupyternotebook用到 ... [详细]

蜡笔小新 2023-09-14 16:57:59
java
Golang如何使用Cookie跟踪位置

关键词：Golang, Cookie, 跟踪位置, net/http/cookiejar, package main, golang.org/x/net/publicsuffix, io/ioutil, log, net/http, net/http/cookiejar ... [详细]

蜡笔小新 2023-12-13 15:47:22

左手抽烟吹寂寞

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章