Appium+mitmdump爬取京东商品的方法

作者：mobiledu2502905277 | 来源：互联网 | 2023-05-16 10:30

小编给大家分享一下Appium+mitmdump爬取京东商品的方法，希望大家阅读完这篇文章后大所收获，下面让我们一起去探讨吧！Appium+mitmdump爬取京

小编给大家分享一下Appium+mitmdump爬取京东商品的方法，希望大家阅读完这篇文章后大所收获，下面让我们一起去探讨吧！

Appium+mitmdump 爬取京东商品

在前文中，我们曾经用 Charles 分析过京东商品的评论数据，但是可以发现其参数相当复杂，Form 表单有很多加密参数。如果我们只用 Charles 探测到这个接口链接和参数，还是无法直接构造请求的参数，构造的过程涉及一些加密算法，也就无法直接还原抓取过程。

我们了解了 mitmproxy 的用法，利用它的 mitmdump 组件，可以直接对接 Python 脚本对抓取的数据包进行处理，用 Python 脚本对请求和响应直接进行处理。这样我们可以绕过请求的参数构造过程，直接监听响应进行处理即可。但是这个过程并不是自动化的，抓取 App 的时候实际是人工模拟了这个拖动过程。如果这个操作可以用程序来实现就更好了。

我们又了解了 Appium 的用法，它可以指定自动化脚本模拟实现 App 的一系列动作，如点击、拖动等，也可以提取 App 中呈现的信息。经过上节爬取微信朋友圈的实例，我们知道解析过程比较烦琐，而且速度要加以限制。如果内容没有显示出来解析就会失败，而且还会导致重复提取的问题。更重要的是，它只可以获取在 App 中看到的信息，无法直接提取接口获取的真实数据，而接口的数据往往是最易提取且信息量最全的。

综合以上几点，我们就可以确定出一个解决方案了。如果我们用 mitmdump 去监听接口数据，用 Appium 去模拟 App 的操作，就可以绕过复杂的接口参数又可以实现自动化抓取了！这种方式应是抓取 App 数据的最佳方式。某些特殊情况除外，如微信朋友圈数据又经过了一次加密无法解析，而只能用 Appium 提取。但是对于大多数 App 来说，此种方法是奏效的。本节我们用一个实例感受一下这种抓取方式的便捷之处。

1. 本节目标

以抓取京东 App 的商品信息和评论为例，实现 Appium 和 mitmdump 二者结合的抓取。抓取的数据分为两部分：一部分是商品信息，我们需要获取商品的 ID、名称和图片，将它们组成一条商品数据；另一部分是商品的评论信息，我们将评论人的昵称、评论正文、评论日期、发表图片都提取，然后加入商品 ID 字段，将它们组成一条评论数据。最后数据保存到 MongoDB 数据库。

2. 准备工作

请确保 PC 已经安装好 Charles、mitmdump、Appium、Android 开发环境，以及 Python 版本的 Appium API。Android 手机安装好京东 App。另外，安装好 MongoDB 并运行其服务，安装 PyMongo 库。具体的配置过程可以参考第 1 章。

3. Charles 抓包分析

首先，我们将手机代理设置到 Charles 上，用 Charles 抓包分析获取商品详情和商品评论的接口。

获取商品详情的接口，这里提取到的接口是来自 cdnware.m.jd.com 的链接，返回结果是一个 JSON 字符串，里面包含了商品的 ID 和商品名称，如图 11-47 和图 11-48 所示。

Appium+mitmdump爬取京东商品的方法

图 11-47 请求概览

Appium+mitmdump爬取京东商品的方法

图 11-48 响应结果

再获取商品评论的接口，这个过程在前文已提到，在此不再赘述。这个接口来自 api.m.jd.com，返回结果也是 JSON 字符串，里面包含了商品的数条评论信息。

之后我们可以用 mitmdump 对接一个 Python 脚本来实现数据的抓取。

4. mitmdump 抓取

新建一个脚本文件，然后实现这个脚本以提取这两个接口的数据。首先提取商品的信息，代码如下所示：

def response(flow):
    url = &＃39;cdnware.m.jd.com&＃39;
    if url in flow.request.url:
        text = flow.response.text
        data = json.loads(text)
        if data.get(&＃39;wareInfo&＃39;) and data.get(&＃39;wareInfo&＃39;).get(&＃39;basicInfo&＃39;):
            info = data.get(&＃39;wareInfo&＃39;).get(&＃39;basicInfo&＃39;)
            id = info.get(&＃39;wareId&＃39;)
            name = info.get(&＃39;name&＃39;)
            images = info.get(&＃39;wareImage&＃39;)
            print(id, name, images)

这里声明了接口的部分链接内容，然后与请求的 URL 作比较。如果该链接出现在当前的 URL 中，那就证明当前的响应就是商品详情的响应，然后提取对应的 JSON 信息即可。在这里我们将商品的 ID、名称和图片提取出来，这就是一条商品数据。

再提取评论的数据，代码实现如下所示：

# 提取评论数据
url = &＃39;api.m.jd.com/client.action&＃39;
if url in flow.request.url:
    pattern = re.compile(&＃39;sku".*?"(d+)"&＃39;)
    # Request 请求参数中包含商品 ID
    body = unquote(flow.request.text)
    # 提取商品 ID
    id = re.search(pattern, body).group(1) if re.search(pattern, body) else None
    # 提取 Response Body
    text = flow.response.text
    data = json.loads(text)
    comments = data.get(&＃39;commentInfoList&＃39;) or []
    # 提取评论数据
    for comment in comments:
        if comment.get(&＃39;commentInfo&＃39;) and comment.get(&＃39;commentInfo&＃39;).get(&＃39;commentData&＃39;):
            info = comment.get(&＃39;commentInfo&＃39;)
            text = info.get(&＃39;commentData&＃39;)
            date = info.get(&＃39;commentDate&＃39;)
            nickname = info.get(&＃39;userNickName&＃39;)
            pictures = info.get(&＃39;pictureInfoList&＃39;)
            print(id, nickname, text, date, pictures)

这里指定了接口的部分链接内容，以判断当前请求的 URL 是不是获取评论的 URL。如果满足条件，那么就提取商品的 ID 和评论信息。

商品的 ID 实际上隐藏在请求中，我们需要提取请求的表单内容来提取商品的 ID，这里直接用了正则表达式。

商品的评论信息在响应中，我们像刚才一样提取了响应的内容，然后对 JSON 进行解析，最后提取出商品评论人的昵称、评论正文、评论日期和图片信息。这些信息和商品的 ID 组合起来，形成一条评论数据。

最后用 MongoDB 将两部分数据分开保存到两个 Collection，在此不再赘述。

运行此脚本，命令如下所示：

mitmdump -s script.py

手机的代理设置到 mitmdump 上。我们在京东 App 中打开某个商品，下拉商品评论部分，即可看到控制台输出两部分的抓取结果，结果成功保存到 MongoDB 数据库，如图 11-49 所示。

Appium+mitmdump爬取京东商品的方法

图 11-49 保存结果

如果我们手动操作京东 App 就可以做到京东商品评论的抓取了，下一步要做的就是实现自动滚动刷新。

5. Appium 自动化

将 Appium 对接到手机上，用 Appium 驱动 App 完成一系列动作。进入 App 后，我们需要做的操作有点击搜索框、输入搜索的商品名称、点击进入商品详情、进入评论页面、自动滚动刷新，基本的操作逻辑和爬取微信朋友圈的相同。

京东 App 的 Desired Capabilities 配置如下所示：

{
    &＃39;platformName&＃39;: &＃39;Android&＃39;,
    &＃39;deviceName&＃39;: &＃39;MI_NOTE_Pro&＃39;,
    &＃39;appPackage&＃39;: &＃39;com.jingdong.app.mall&＃39;,
    &＃39;appActivity&＃39;: &＃39;main.MainActivity&＃39;
}

首先用 Appium 内置的驱动打开京东 App，如图 11-50 所示。

Appium+mitmdump爬取京东商品的方法

图 11-50 调试界面

这里进行一系动作操作并录制下来，找到各个页面的组件的 ID 并做好记录，最后再改写成完整的代码。参考代码实现如下所示：

from appium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from time import sleep
class Action():
    def __init__(self):
        # 驱动配置
        self.desired_caps = {
            &＃39;platformName&＃39;: PLATFORM,
            &＃39;deviceName&＃39;: DEVICE_NAME,
            &＃39;appPackage&＃39;: &＃39;com.jingdong.app.mall&＃39;,
            &＃39;appActivity&＃39;: &＃39;main.MainActivity&＃39;
        }
        self.driver = webdriver.Remote(DRIVER_SERVER, self.desired_caps)
        self.wait = WebDriverWait(self.driver, TIMEOUT)
    def comments(self):
        # 点击进入搜索页面
        search = self.wait.until(EC.presence_of_element_located((By.ID, &＃39;com.jingdong.app.mall:id/mp&＃39;)))
        search.click()
        # 输入搜索文本
        box = self.wait.until(EC.presence_of_element_located((By.ID, &＃39;com.jd.lib.search:id/search_box_layout&＃39;)))
        box.set_text(KEYWORD)
        # 点击搜索按钮
        button = self.wait.until(EC.presence_of_element_located((By.ID, &＃39;com.jd.lib.search:id/search_btn&＃39;)))
        button.click()
        # 点击进入商品详情
        view = self.wait.until(EC.presence_of_element_located((By.ID, &＃39;com.jd.lib.search:id/product_list_item&＃39;)))
        view.click()
        # 进入评论详情
        tab = self.wait.until(EC.presence_of_element_located((By.ID, &＃39;com.jd.lib.productdetail:id/pd_tab3&＃39;)))
        tab.click()
    def scroll(self):
        while True:
            # 模拟拖动
            self.driver.swipe(FLICK_START_X, FLICK_START_Y + FLICK_DISTANCE, FLICK_START_X, FLICK_START_Y)
            sleep(SCROLL_SLEEP_TIME)
    def main(self):
        self.comments()
        self.scroll()
if __name__ == &＃39;__main__&＃39;:
    action = Action()
    action.main()

代码实现比较简单，逻辑与上一节微信朋友圈的抓取类似。注意，由于 App 版本更新的原因，交互流程和元素 ID 可能有更改，这里的代码仅做参考。

下拉过程已经省去了用 Appium 提取数据的过程，因为这个过程我们已经用 mitmdump 帮助实现了。

代码运行之后便会启动京东 App，进入商品的详情页，然后进入评论页再无限滚动，这样就代替了人工操作。Appium 实现模拟滚动，mitmdump 进行抓取，这样 App 的数据就会保存到数据库中。

看完了这篇文章，相信你对Appium+mitmdump爬取京东商品的方法有了一定的了解，想了解更多相关知识，欢迎关注编程笔记行业资讯频道，感谢各位的阅读！

推荐阅读

jsp
优化Apache配置文件：httpd.conf与.htaccess的深入解析

本文深入解析了 Apache 配置文件 `httpd.conf` 和 `.htaccess` 的优化方法，探讨了如何通过合理配置提升服务器性能和安全性。文章详细介绍了这两个文件的关键参数及其作用，并提供了实际应用中的最佳实践，帮助读者更好地理解和运用 Apache 配置。 ... [详细]

蜡笔小新 2024-11-01 04:26:35
plugins
Spring Boot 实战（一）：基础的CRUD操作详解

在《Spring Boot 实战（一）》中，详细介绍了基础的CRUD操作，涵盖创建、读取、更新和删除等核心功能，适合初学者快速掌握Spring Boot框架的应用开发技巧。 ... [详细]

蜡笔小新 2024-10-31 21:03:29
char
Android设备相机连接故障解决方案：深入探讨应用开发中的常见问题及其应对策略

本文深入探讨了在Android应用开发中常见的相机连接故障问题，特别是在RK3288平台和Android 6.0系统上。通过分析具体案例，本文提供了详细的解决方案和应对策略，旨在帮助开发者有效解决相机连接问题，提升应用的稳定性和用户体验。 ... [详细]

蜡笔小新 2024-10-31 16:22:59
filter
从零开始使用Python Flask构建鱼书应用：高级编程指南

本课程详细介绍了如何使用Python Flask框架从零开始构建鱼书应用，涵盖高级编程技巧和实战项目。通过视频教学，学员将学习到Flask的高效用法，包括数据库事务处理和书籍交易模型的实现。特别感谢AI资源网提供的课程下载支持。 ... [详细]

蜡笔小新 2024-10-31 08:56:47
java
探讨 `org.openide.windows.TopComponent.componentOpened()` 方法的应用及其代码实例分析

探讨 `org.openide.windows.TopComponent.componentOpened()` 方法的应用及其代码实例分析 ... [详细]

蜡笔小新 2024-10-30 18:43:34
yaml
Android目录遍历工具 | AppCrawler自动化测试进阶（第二部分）：个性化配置详解

终于迎来了“足不出户也能为社会贡献力量”的时刻，但有追求的测试工程师绝不会让自己的生活变得乏味。与其在家消磨时光，不如利用这段时间深入研究和提升自己的技术能力，特别是对AppCrawler自动化测试工具的个性化配置进行详细探索。这不仅能够提高测试效率，还能为项目带来更多的价值。 ... [详细]

蜡笔小新 2024-10-29 13:58:19
jsp
每日思维洞察：2020年8月19日的深度分析与反思

在2020年8月19日的深度分析中，我们探讨了HTML标签中同时存在`a`标签的`href`和`onclick`属性时的触发顺序问题。此外，还讨论了如何在一个自适应高度的父级`div`中，使两个子`div`中的一个固定高度为300px，另一个自动填充剩余空间的方法。最后，文章详细介绍了JavaScript异步加载的多种实现方式，包括但不限于`async`、`defer`属性以及动态脚本插入技术，为开发者提供了丰富的技术参考。 ... [详细]

蜡笔小新 2024-10-28 19:59:35
cmd
从零起步：使用IntelliJ IDEA搭建Spring Boot应用的详细指南

从零起步：使用IntelliJ IDEA搭建Spring Boot应用的详细指南 ... [详细]

蜡笔小新 2024-11-01 11:34:01
string
成功实现Asp.Net MVC3网站与MongoDB数据库的高效集成

我们成功地构建了一个基于Asp.NET MVC3框架的网站，并实现了与MongoDB数据库的高效集成。此次更新不仅完善了基本的创建和显示功能，还全面实现了数据的增删改查操作。在创建功能方面，我们修复了之前代码中的错误，确保每个属性都能正确生成。此外，我们还对数据模型进行了优化，以提高系统的性能和稳定性。 ... [详细]

蜡笔小新 2024-10-30 18:29:27
request
深入解析Python协程：asyncio模块的应用与优化

在处理大规模并发请求时，传统的多线程或多进程模型往往无法有效解决性能瓶颈问题。尽管它们在处理小规模任务时能提升效率，但在高并发场景下，系统资源的过度消耗和上下文切换的开销会显著降低整体性能。相比之下，Python 的 `asyncio` 模块通过协程提供了一种轻量级且高效的并发解决方案。本文将深入解析 `asyncio` 模块的原理及其在实际应用中的优化技巧，帮助开发者更好地利用协程技术提升程序性能。 ... [详细]

蜡笔小新 2024-10-30 18:17:34
string
优化直播应用底部聊天框弹出机制，确保布局稳定兼容虚拟按键设备

为了优化直播应用底部聊天框的弹出机制，确保在不同设备上的布局稳定性和兼容性，特别是在配备虚拟按键的设备上，我们对用户交互流程进行了调整。首次打开应用时，需先点击首个输入框以准确获取键盘高度，避免直接点击第二个输入框导致的整体布局挤压问题。此优化通过调整 `activity_main.xml` 布局文件实现，确保了更好的用户体验和界面适配。 ... [详细]

蜡笔小新 2024-10-30 15:06:55
string
The Evolution and Development of MySQL: A Comprehensive Overview

本文全面概述了MySQL的发展历程与演进。最初，我们旨在通过自定义的快速低级（ISAM）接口连接到表格，利用mSQL数据库系统。随着时间的推移，MySQL不仅在性能和稳定性上取得了显著提升，还引入了多种高级功能，如事务处理、存储过程和视图等，成为全球广泛使用的开源数据库管理系统之一。 ... [详细]

蜡笔小新 2024-10-29 19:54:00
request
在Laravel中实现PHP对JSON数据的发布与处理

在Laravel中实现PHP对JSON数据的发布与处理 ... [详细]

蜡笔小新 2024-10-29 16:15:02
java
C#与ASP.NET中实用的类型解析扩展方法库

在C#和ASP.NET开发中，TypeParse 是一个非常实用的类型解析扩展方法库，提供了简便的类型转换功能。例如，通过 `var int1 = "12".TryToInt();` 可以将字符串安全地转换为整数，如果转换失败则返回0。此外，还支持更多复杂的类型转换场景，如 `var int2 = "22x".TryToInt();` 和 `var int3 = "3.14".TryToInt();`，确保了代码的健壮性和易用性。 ... [详细]

蜡笔小新 2024-10-29 11:29:11
jsp
浏览器中 W3School JavaScript 的 Location 对象详解

Location对象是浏览器Window对象的一部分，通过`window.location`属性可访问。它包含了当前页面URL的相关信息，如协议、主机名、路径和查询参数等，对于页面导航和URL操作非常有用。 ... [详细]

蜡笔小新 2024-10-29 10:11:40

mobiledu2502905277

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章