当前位置: 开发笔记 > 编程语言 > 正文

python爬虫——爬取taptap游戏的评论信息（通过fiddler抓包）

作者：蟹子萝卜控 | 来源：互联网 | 2023-10-10 17:29

1.效果图，只抓取了评论人名字，游戏时长和评论内容，另外因为随机延迟，爬取的速度不是很快，有需要的爬友们可以写个多线程进行爬取2.通过抓包，分析之后我们可以找到评论区所在的url，

1. 效果图，只抓取了评论人名字，游戏时长和评论内容，另外因为随机延迟，爬取的速度不是很快，有需要的爬友们可以写个多线程进行爬取

2. 通过抓包，分析之后我们可以找到评论区所在的url，对比之后我们可以发现该条url就是我们需要的url

python爬虫——爬取taptap游戏的评论信息（通过fiddler抓包）

3. 通过对比多条url，发现其中的规律，就是from递增10

python爬虫——爬取taptap游戏的评论信息（通过fiddler抓包）

4. 再分析返回的数据是json格式，通过对字典那样的操作，可以直接获取到我们需要的信息

python爬虫——爬取taptap游戏的评论信息（通过fiddler抓包）

5. 通过datas= resp.get(‘data’).get(‘list’)的datas是否为空来判断是否到底了，到底了咱们就break退出循环

resp = requests.get(url, headers=headers).json()
datas= resp.get('data').get('list')
if datas:
    for data in datas:
        # 评论人
        name = data.get('author').get('name')
        # 游戏时长
        played_tips = data.get('played_tips')
        # 评论内容
        cOntents= data.get('contents').get('text')

        # 声明一个字典储存数据
        data_dict = {}
        data_dict['name'] = name
        data_dict['played_tips'] = played_tips
        data_dict['contents'] = contents.replace('
', '')
        data_list.append(data_dict)

        print(data_dict)
else:
     break

6. 通过page自增10来达到翻页的效果，通过random随机函数来实现随机延迟

python爬虫——爬取taptap游戏的评论信息（通过fiddler抓包）

7. 完整代码附上

import requests
import json
import csv
import time
import random


headers = {
    'Host': 'api.taptapdada.com',
    'Connection': 'Keep-Alive',
    'Accept-Encoding': 'gzip',
    'User-Agent': 'okhttp/3.10.0'

}

# 声明一个列表存储字典
data_list = []


def start_spider():
    page = 0
    while True:
        time.sleep(round(random.uniform(0.5, 1.5), 1))
        url = 'https://api.taptapdada.com/review/v1/by-app?limit=10&app_id=142793' \
              '&X-UA=V%3D1%26PN%3DTapTap%26VN_CODE%3D551%26LOC%3DCN%26LANG%3Dzh_CN%26CH%3Dtencent%26' \
              'UID%3Dda4b99bf-5e2b-4204-a92f-235474b32c4c&from={}'.format(page)
        page += 10
        resp = requests.get(url, headers=headers).json()
        datas = resp.get('data').get('list')
        if datas:
            for data in datas:
                # 评论人
                name = data.get('author').get('name')
                # 游戏时长
                played_tips = data.get('played_tips')
                # 评论内容
                cOntents= data.get('contents').get('text')

                # 声明一个字典储存数据
                data_dict = {}
                data_dict['name'] = name
                data_dict['played_tips'] = played_tips
                data_dict['contents'] = contents.replace('
', '')
                data_list.append(data_dict)

                print(data_dict)
        else:
            break


def main():

    start_spider()
    # 将数据写入json文件
    with open('data_json.json', 'a+', encoding='utf-8-sig') as f:
        json.dump(data_list, f, ensure_ascii=False, indent=4)
    print('json文件写入完成')

    # 将数据写入csv文件
    with open('data_csv.csv', 'w', encoding='utf-8-sig', newline='') as f:
        # 表头
        title = data_list[0].keys()
        # 创建writer
        writer = csv.DictWriter(f, title)
        # 写入表头
        writer.writeheader()
        # 批量写入数据
        writer.writerows(data_list)
    print('csv文件写入完成')


if __name__ == '__main__':

    main()

推荐阅读

main
使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表

本文介绍了一段通用代码示例，该代码不仅能够操作 Azure Active Directory (AAD)，还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级：AAD 和 Subscription。 ... [详细]

蜡笔小新 2024-12-27 16:07:12
php
中央电视台电影频道节目预告及优化分析

本文详细介绍了中央电视台电影频道的节目预告，并通过专业工具分析了其加载方式，确保用户能够获取最准确的电视节目信息。 ... [详细]

蜡笔小新 2024-12-25 21:01:14
main
golang常用库：配置文件解析库/管理工具viper使用

golang常用库：配置文件解析库管理工具-viper使用-一、viper简介viper配置管理解析库，是由大神SteveFrancia开发，他在google领导着golang的 ... [详细]

蜡笔小新 2024-12-28 13:47:52
main
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
php
Yii2 GridView 实现列表页数据直接编辑的完整指南

本文详细介绍了如何使用 Yii2 的 GridView 组件在列表页面实现数据的直接编辑功能。通过具体的代码示例和步骤，帮助开发者快速掌握这一实用技巧。 ... [详细]

蜡笔小新 2024-12-27 16:27:52
object
解析与处理 JSON 中的空数组

本文探讨了如何在编程中正确处理包含空数组的 JSON 对象，提供了详细的代码示例和解决方案。 ... [详细]

蜡笔小新 2024-12-26 16:33:40
php
使用npm脚本同时启动多个监听服务的技巧

本文介绍了如何利用npm脚本和concurrently工具，实现本地开发环境中多个监听服务的同时启动，包括HTTP服务、自动刷新、Sass和ES6支持。 ... [详细]

蜡笔小新 2024-12-25 18:10:18
php
深入解析JMeter中的JSON提取器及其应用

本文详细介绍了如何在JMeter中使用JSON提取器来获取和处理API响应中的数据。特别是在需要将一个接口返回的数据作为下一个接口的输入时，JSON提取器是一个非常有用的工具。 ... [详细]

蜡笔小新 2024-12-25 16:34:37
main
深入理解Redis的数据结构与对象系统

本文详细探讨了Redis中的数据结构和对象系统的实现，包括字符串、列表、集合、哈希表和有序集合等五种核心对象类型，以及它们所使用的底层数据结构。通过分析源码和相关文献，帮助读者更好地理解Redis的设计原理。 ... [详细]

蜡笔小新 2024-12-25 04:11:22
header
Servlet 表单处理：GET 和 POST 请求的深入解析

本文详细探讨了HTML表单中GET和POST请求的区别，包括它们的工作原理、数据传输方式、安全性及适用场景。同时，通过实例展示了如何在Servlet中处理这两种请求。 ... [详细]

蜡笔小新 2024-12-23 18:09:59
header
Python处理Word文档的高效技巧

本文详细介绍了如何使用Python处理Word文档，涵盖从基础操作到高级功能的各种技巧。我们将探讨如何生成文档、定义样式、提取表格数据以及处理超链接和图片等内容。 ... [详细]

蜡笔小新 2024-12-23 10:40:32
eval
分页插件3指定到某一页

前言--页数多了以后需要指定到某一页（只做了功能，样式没有细调）html ... [详细]

蜡笔小新 2024-12-27 15:19:01
main
解析JSON格式文本并处理数据

本文介绍如何使用阿里云的fastjson库解析包含时间戳、IP地址和参数等信息的JSON格式文本，并进行数据处理和保存。 ... [详细]

蜡笔小新 2024-12-26 16:06:09
main
DLP数据泄露检测原理浅析

最近团队在部署DLP，作为一个技术人员对于黑盒看不到的地方还是充满了好奇心。多次咨询乙方人员DLP的算法原理是什么，他们都以商业秘密为由避而不谈，不得已只能自己查资料学习，于是有了下面的浅见。身为甲方，虽然不需要开发DLP产品，但是也有必要弄明白DLP基本的原理。俗话说工欲善其事必先利其器，只有在懂这个工具的原理之后才能更加灵活地使用这个工具，即使出现意外情况也能快速排错，越接近底层，越接近真相。根据DLP的实际用途，本文将DLP检测分为2部分，泄露关键字检测和近似重复文档检测。 ... [详细]

蜡笔小新 2024-12-25 18:19:32
default
Vue 2.0 中使用 Axios 获取数据时遇到错误的解决方案

本文探讨了在 Vue 2.0 项目中使用 Axios 获取数据时可能出现的错误，并提供详细的解决方案和最佳实践。 ... [详细]

蜡笔小新 2024-12-25 14:02:12

蟹子萝卜控

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章