怎么用Python来统计知识星球打卡作业

作者：你的拥吻像情歌一样凄美_207 | 来源：互联网 | 2023-09-15 16:59

本篇内容主要讲解“怎么用Python来统计知识星球打卡作业”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大

本篇内容主要讲解“怎么用Python来统计知识星球打卡作业”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“怎么用Python来统计知识星球打卡作业”吧!

标题叫“用Python批改知识星球作业”，感觉太标题党了，所以换了个词，不过等AI更强大点是有可能做到的。咱们知识星球，每周都要统计大家的作业完成情况与打卡次数，因为知识星球没有给星主提供运营统计数据，所以，我只能自己动手解决，特别推荐产品和运营人员学点编程，懂点爬虫，因为互联网人都是靠数据说话的。

我们的目标是统计出最近一周在星球里的打卡与作业完成情况，所以我们先要想办法拿到数据，再对数据进行统计分析。因为知识星球提供了 PC 浏览器版本，数据的抓取我们直接从 Chrome 浏览器找入口。

第一步：思路分析

爬虫获取数据就是利用程序模拟浏览器发起网络请求，将数据采集回来，所以，我们先来分析网络请求在浏览器里面是怎样的。微信扫描登录知识星球 https://wx.zsxq.com/dweb/ 后，浏览器右键「检查」，打开开发者模式选择「Network」就可以看到浏览器发出的每个网络请求，选择你要进行统计的圈子，你会看到有很多请求。

怎么用Python来统计知识星球打卡作业

这些请求全部是和该圈子相关的，在这个阶段首先你要对整个往页的数据有个大概了解，比如在该页面提供的功能有圈子的基本介绍、星主的基本信息、中间是帖子列表，左侧是圈子列表，此时你需要根据每个请求的返回结果做出判断

groups 请求的数据对应页面左边的圈子列表。

怎么用Python来统计知识星球打卡作业

topics?count=20 正是我们要找的帖子数据的请求接口

怎么用Python来统计知识星球打卡作业

找到了获取数据的请求接口后，我们先来对返回的数据结构了解一下

{
    "topic_id": 48551524482128,
    "group": {
        "group_id": 518855855524,
        "name": "Python之禅和朋友们"
    },
    "type": "talk",
    "talk": {
        "owner": {
            "user_id": 15551441848112,
            "name": "叶宪",
            "avatar_url": "https://file.zsxq.19.jpg"
        },
        "text": "我尝试了一下，8位0-9纯数字的MD5暴力破解花了约140秒。"
    },
    "likes_count": 0,
    "comments_count": 0,
    "rewards_count": 0,
    "digested": false,
    "sticky": false,
    "create_time": "2018-06-05T23:39:38.197+0800",
    "user_specific": {
        "liked": false,
        "subscribed": false
    }
}

根据接口返回的结果，分析得出每次请求返回的结果包含了20条帖子数据，每条帖子的数据结构也非常清晰，type 表示帖子的类型，talk 是普通的帖子，还有一种叫 solution，表示作业，talk 字段里面指定了发帖者的信息，和所发的内容，还有创建时间。这是一个嵌套的json 字典结构，用 MongoDB 来直接存储这些数据是最方便的，不需要构建 Schema，直接作为一个文档（json）存到数据库就可以，方便后面根据条件进行过滤分组统计。

第二步：代码实现

思路清晰后，写代码其实是很快的，Mongodb 的安装这里就不介绍了，参考网上的教程可以解决。只需要两个依赖库就可以搞定。

pip install pymongo
pip install requests

现在获取数据的接口找到了，存储数据的方案也确定了，可以正式开始撸代码实现了。先来确定如果我们用代码来模拟浏览器发送获取帖子数据的请求，我们需要提供给哪些请求数据。

怎么用Python来统计知识星球打卡作业

再来详细看这个请求的细节信息，确定了完整的 url 和请求方法 GET，以及很重要的请求头信息。头信息我们把它封装成字典放在get方法中。

def crawl():
    url = "https://api.zsxq.com/v1.10/groups/518855855524/topics?count=20"
    res = requests.get(url, headers=headers) # get 请求
    topics = res.json().get("resp_data").get("topics")
    for i in topics:
        print(i.get("talk").get("text")[:10])
        db.topics.insert_one(i)

现在你还只是获取了前20条数据，要想获取所有的帖子，还需要分页查询，这时你需要使用浏览器加载更多数据来查看请求里面的分页参数是什么。你会发现它是使用上一次请求返回的数据中最后一条帖子的创建时间作为分页参数 end_time 象服务器获取的，所以我们把代码改成：

def crawl(url):
    res = requests.get(url, headers=str_to_dict(headers))
    topics = res.json().get("resp_data").get("topics")
    if len(topics) <= 1:
        return
    for i in topics:
        print(i.get("talk").get("text")[:10])
        db.topics.insert_one(i)
    else:
        last_time = i.get("create_time")
        crawl("https://api.zsxq.com/v1.9/groups/518855855524/topics?count=20" + "&end_time=" + parse.quote(last_time))

我使用递归的方式将这个圈子里面所有的帖子全部爬下来。

怎么用Python来统计知识星球打卡作业

第三步：数据统计

数据拿到了，现在正是可以进入分析统计阶段了。

我们需要用到 MongoDB 的聚合功能，根据每个人的发帖数进行分组排名，并指定匹配查询条件（我查询的是时间大于某个指定的日期），有人说，是不是我还需要先去学完 MongoDB 才能做统计了。其实也不，你可以借用强大的搜索引擎来帮助你怎么做这这种复杂的操作。

话说回来，你还是要对MongoDB有基本的了解和掌握简单的操作，快速入门后才知道怎么去搜索你要的答案，否则也是无从下手。

def statics():
    # 打卡
    talk = db.topics.aggregate(
        [
            {"$match": {"create_time": {"$gte": "2018-05-28T00:00:14.202+0800"}}},
            {
                "$group": {
                    "_id": {
                        "user_id": "$talk.owner.user_id",
                        "name": "$talk.owner.name",
                    },
                    "count": {"$sum": 1},
                }
            },
            {"$sort": {"count": -1}},
        ]
    )

这是我根据刷选条件，根据帖子的创建时间大于等于指定时间，再根据发帖者的id和名字进行分组统计，最后按照降序进行排列。 type 为 solution 的作业帖子也使用同样的方式，即可统计出来。最终写入 cvs 文件，展示出来的效果是：

怎么用Python来统计知识星球打卡作业

到此，相信大家对“怎么用Python来统计知识星球打卡作业”有了更深的了解，不妨来实际操作一番吧！这里是编程笔记网站，更多相关内容可以进入相关频道进行查询，关注我们，继续学习！

推荐阅读

request
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
int
自己用过的一些比较有用的css3新属性【HTML】

web前端|html教程自己用过的一些比较用的css3新属性web前端-html教程css3刚推出不久，虽然大多数的css3属性在很多流行的浏览器中不支持，但我个人觉得还是要尽量开 ... [详细]

蜡笔小新 2024-12-24 19:26:54
spring
使用JS、HTML5和C3创建自定义弹出窗口

本文介绍如何结合JavaScript、HTML5和C3.js来实现一个功能丰富的自定义弹出窗口。通过具体的代码示例，详细讲解了实现过程中的关键步骤和技术要点。 ... [详细]

蜡笔小新 2024-12-20 21:22:27
spring
PHP编程语言及其在股市中的应用

本文将深入探讨PHP编程语言的基本概念，并解释PHP概念股的含义。通过详细解析，帮助读者理解PHP在Web开发和股票市场中的重要性。 ... [详细]

蜡笔小新 2024-12-25 15:02:45
int
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
int
Qt 环境下 SQLite 动态创建表的实现方法

SQLite 动态创建多个表的需求在网络上有不少讨论，但很少有详细的解决方案。本文将介绍如何在 Qt 环境中使用 QString 类轻松实现 SQLite 表的动态创建，并提供详细的步骤和示例代码。 ... [详细]

蜡笔小新 2024-12-26 15:11:34
import
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
int
深入解析网络存储技术

本文详细介绍了网络存储技术的基本概念、分类及应用场景。通过分析直连式存储（DAS）、网络附加存储（NAS）和存储区域网络（SAN）的特点，帮助读者理解不同存储方式的优势与局限性。 ... [详细]

蜡笔小新 2024-12-24 10:38:34
flutter
国际高保真音乐流媒体平台的崛起：亚马逊与谷歌的竞争策略

近期，亚马逊和谷歌正积极筹备推出高保真音乐流媒体服务，预计在2019年底前上线。根据市场研究机构CIRP的数据，截至2018年12月，美国智能音箱的安装量已增至6600万台，较第三季度增长显著。这一趋势对Spotify等传统流媒体平台构成了新的挑战。 ... [详细]

蜡笔小新 2024-12-22 13:32:15
int
并发编程 12—— 任务取消与关闭之 shutdownNow 的局限性

Java并发编程实践目录并发编程01——ThreadLocal并发编程02——ConcurrentHashMap并发编程03——阻塞队列和生产者-消费者模式并发编程04——闭锁Co ... [详细]

蜡笔小新 2024-12-21 12:39:07
int
Python自动化测试入门：Selenium环境搭建

本文详细介绍如何在Python环境中安装和配置Selenium，包括开发工具PyCharm的安装、Python环境的设置以及Selenium包的安装方法。此外，还提供了编写和运行第一个自动化测试脚本的步骤。 ... [详细]

蜡笔小新 2024-12-21 10:48:56
select
CSS选择器与XPath在Selenium中的元素定位对比

本文详细比较了CSS选择器和XPath在Selenium中通过页面结构定位元素的优劣，并提供了具体的代码示例，帮助读者理解两者在不同场景下的适用性。 ... [详细]

蜡笔小新 2024-12-21 08:56:18
select
推荐几款高效测量图片像素的工具

本文介绍了几款适用于Web前端开发的工具，这些工具可以帮助用户在图片上绘制线条并精确测量其像素长度。对于需要进行图像处理或设计工作的开发者来说非常实用。 ... [详细]

蜡笔小新 2024-12-20 19:17:07
import
HTML5与JavaScript实现本地文件读取、写入及路径获取

本文探讨了如何利用HTML5和JavaScript在浏览器中进行本地文件的读取和写入操作，并介绍了获取本地文件路径的方法。HTML5提供了一系列API，使得这些操作变得更加简便和安全。 ... [详细]

蜡笔小新 2024-12-20 18:36:06
request
Python3 中使用 lxml 模块解析 XPath 数据详解

XPath 是一种用于在 XML 文档中查找信息的路径语言，同样适用于 HTML 文件的搜索。本文将详细介绍如何利用 Python 的 lxml 模块通过 XPath 技术高效地解析和抓取网页数据。 ... [详细]

蜡笔小新 2024-12-20 11:23:22

你的拥吻像情歌一样凄美_207

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章