《Python3网络爬虫开发实战》:高效实用的MongoDB文档存储

作者：h619718610 | 来源：互联网 | 2023-10-13 12:58

NoSQL，全称NotOnlySQL，意为不仅仅是SQL，泛指非关系型数据库。NoSQL是基于键值对的，而且不需要经过SQL

NoSQL&＃xff0c;全称 Not Only SQL&＃xff0c;意为不仅仅是 SQL&＃xff0c;泛指非关系型数据库。NoSQL 是基于键值对的&＃xff0c;而且不需要经过 SQL 层的解析&＃xff0c;数据之间没有耦合性&＃xff0c;性能非常高。
非关系型数据库又可细分如下&＃xff1a;

键值存储数据库&＃xff1a;其代表有 Redis、Voldemort 和 Oracle BDB 等。
列存储数据库&＃xff1a;其代表有 Cassandra、HBase 和 Riak 等。
文档型数据库&＃xff1a;其代表有 CouchDB 和 MongoDB 等。
键值存储数据库&＃xff1a;其代表有 Redis、Voldemort 和 Oracle BDB 等。
图形数据库&＃xff1a;其代表有 Neo4J、InfoGrid 和 Infinite Graph 等。

对于爬虫的数据存储来说&＃xff0c;一条数据可能存在某些字段提取失败而缺失的情况&＃xff0c;而且数据可能随时调整。另外&＃xff0c;数据之间还存在嵌套关系。如果使用关系型数据库存储****&＃xff0c;一是需要提前建表&＃xff0c;二是如果存在数据嵌套关系的话&＃xff0c;需要进行序列化操作才可以存储&＃xff0c;这非常不方便。如果用了非关系型数据库&＃xff0c;就可以避免一些麻烦&＃xff0c;更简单、高效。

本节中&＃xff0c;我们主要介绍 MongoDB 存储操作。

MongoDB 是由 C&＃43;&＃43; 语言编写的非关系型数据库&＃xff0c;是一个基于分布式文件存储的开源数据库系统&＃xff0c;其内容存储形式类似 JSON 对象&＃xff0c;它的字段值可以包含其他文档、数组及文档数组&＃xff0c;非常灵活。在这一节中&＃xff0c;我们就来看看 Python 3 下 MongoDB 的存储操作

1. 准备工作

在开始之前&＃xff0c;请确保已经安装好了 MongoDB 并启动了其服务&＃xff0c;安装方式可以参考&＃xff1a;xx&＃xff08;~~这里不附链接了&＃xff0c;自己下载吧)~~

除了安装好 MongoDB 数据库&＃xff0c;我们还需要安装好 Python 的 PyMongo 库&＃xff0c;如尚未安装&＃xff0c;可以使用 pip3 来安装&＃xff1a;

2. 连接 MongoDB

连接 MongoDB 时&＃xff0c;我们需要使用 PyMongo 库里面的 MongoClient。一般来说&＃xff0c;传入 MongoDB 的 IP 及端口即可&＃xff0c;其中第一个参数为地址 host&＃xff0c;第二个参数为端口 port&＃xff08;如果不给它传递参数&＃xff0c;默认是 27017&＃xff09;&＃xff1a;
在这里插入图片描述
这样就可以创建 MongoDB 的连接对象了。

另外&＃xff0c;MongoClient 的第一个参数 host 还可以直接传入 MongoDB 的连接字符串&＃xff0c;它以 mongodb 开头&＃xff0c;例如&＃xff1a;
在这里插入图片描述

3. 指定数据库

在 MongoDB 中&＃xff0c;可以建立多个数据库&＃xff0c;接下来我们需要指定操作哪个数据库。这里我们以 test 数据库为例来说明&＃xff0c;下一步需要在程序中指定要使用的数据库&＃xff1a;
在这里插入图片描述
这里调用 client 的 test 属性即可返回 test 数据库。当然&＃xff0c;我们也可以这样指定&＃xff1a;

4. 指定集合

MongoDB 的每个数据库又包含许多集合&＃xff08;collection&＃xff09;&＃xff0c;它们类似于关系型数据库中的表。

下一步需要指定要操作的集合&＃xff0c;这里指定一个集合名称为 students。与指定数据库类似&＃xff0c;指定集合也有两种方式&＃xff1a;
在这里插入图片描述
这样我们便声明了一个集合对象

5. 插入数据

接下来&＃xff0c;便可以插入数据了。对于 students 这个集合&＃xff0c;新建一条学生数据&＃xff0c;这条数据以字典形式表示&＃xff1a;
在这里插入图片描述
这里指定了学生的学号、姓名、年龄和性别。接下来&＃xff0c;直接调用 collection 的 insert 方法即可插入数据&＃xff0c;代码如下&＃xff1a;

在 MongoDB 中&＃xff0c;每条数据其实都有一个 _id 属性来唯一标识。如果没有显式指明该属性&＃xff0c;MongoDB 会自动产生一个 ObjectId 类型的 _id 属性。insert 方法会在执行后返回 _id 值。
在这里插入图片描述
当然&＃xff0c;我们也可以同时插入多条数据&＃xff0c;只需要以列表形式传递即可&＃xff0c;示例如下&＃xff1a;

返回结果是对应的 _id 的集合&＃xff1a;

实际上&＃xff0c;在 PyMongo 3.x 版本中&＃xff0c;官方已经不推荐使用 insert 方法了。当然&＃xff0c;继续使用也没有什么问题。官方推荐使用 insert_one 和 insert_many 方法来分别插入单条记录和多条记录&＃xff0c;示例如下&＃xff1a;
在这里插入图片描述
与 insert 方法不同&＃xff0c;这次返回的是 InsertOneResult 对象&＃xff0c;我们可以调用其 inserted_id 属性获取 _id。

对于 insert_many 方法&＃xff0c;我们可以将数据以列表形式传递&＃xff0c;示例如下&＃xff1a;
在这里插入图片描述
结果为

该方法返回的是 InsertManyResult 类型的对象&＃xff0c;调用 inserted_ids 属性可以获取插入数据的 _id 列表

查询
插入数据后&＃xff0c;我们可以利用 find_one 或 find 方法进行查询&＃xff0c;其中 find_one 查询得到的是单个结果&＃xff0c;find 则返回一个生成器对象。示例如下&＃xff1a;

这里我们查询 name 为 Mike 的数据&＃xff0c;它的返回结果是字典类型&＃xff0c;运行结果如下&＃xff1a;

可以发现&＃xff0c;它多了 _id 属性&＃xff0c;这就是 MongoDB 在插入过程中自动添加的。

此外&＃xff0c;我们也可以根据 ObjectId 来查询&＃xff0c;此时需要使用 bson 库里面的 objectid&＃xff1a;
在这里插入图片描述
其查询结果依然是字典类型&＃xff0c;具体如下&＃xff1a;

当然&＃xff0c;如果查询结果不存在&＃xff0c;则会返回 None。

对于多条数据的查询&＃xff0c;我们可以使用 find 方法。例如&＃xff0c;这里查找年龄为 20 的数据&＃xff0c;示例如下&＃xff1a;
在这里插入图片描述

返回结果是 Cursor 类型&＃xff0c;它相当于一个生成器&＃xff0c;我们需要遍历取到所有的结果&＃xff0c;其中每个结果都是字典类型。

如果要查询年龄大于 20 的数据&＃xff0c;则写法如下&＃xff1a;
在这里插入图片描述
这里查询的条件键值已经不是单纯的数字了&＃xff0c;
而是一个字典&＃xff0c;其键名为比较符号 $gt&＃xff0c;意思是大于&＃xff0c;键值为 20

另外&＃xff0c;还可以进行正则匹配查询。例如&＃xff0c;查询名字以 M 开头的学生数据&＃xff0c;示例如下&＃xff1a;
在这里插入图片描述

这里使用 $regex 来指定正则匹配&＃xff0c;^M.* 代表以 M 开头的正则表达式。
在这里插入图片描述
关于这些操作的更详细用法&＃xff0c;可以在 MongoDB 官方文档找到&＃xff1a; https://docs.mongodb.com/manual/reference/operator/query/。

7. 计数

要统计查询结果有多少条数据&＃xff0c;可以调用 count 方法。比如&＃xff0c;统计所有数据条数&＃xff1a;
在这里插入图片描述
或者统计符合某个条件的数据&＃xff1a;

运行结果是一个数值&＃xff0c;即符合条件的数据条数

8. 排序

排序时&＃xff0c;直接调用 sort 方法&＃xff0c;并在其中传入排序的字段及升降序标志即可。示例如下&＃xff1a;
在这里插入图片描述

这里我们调用 pymongo.ASCENDING 指定升序。如果要降序排列&＃xff0c;可以传入 pymongo.DESCENDING

9. 偏移

在某些情况下&＃xff0c;我们可能想只取某几个元素&＃xff0c;这时可以利用 skip 方法偏移几个位置&＃xff0c;比如偏移 2&＃xff0c;就忽略前两个元素&＃xff0c;得到第三个及以后的元素&＃xff1a;
在这里插入图片描述

另外&＃xff0c;还可以用 limit 方法指定要取的结果个数&＃xff0c;示例如下&＃xff1a;

在这里插入图片描述

如果不使用 limit 方法&＃xff0c;原本会返回三个结果&＃xff0c;加了限制后&＃xff0c;会截取两个结果返回。

值得注意的是&＃xff0c;在数据库数量非常庞大的时候&＃xff0c;如千万、亿级别&＃xff0c;最好不要使用大的偏移量来查询数据&＃xff0c;因为这样很可能导致内存溢出。此时可以使用类似如下操作来查询&＃xff1a;
在这里插入图片描述
这时需要记录好上次查询的 _id。

10. 更新

对于数据更新&＃xff0c;我们可以使用 update 方法&＃xff0c;指定更新的条件和更新后的数据即可。例如&＃xff1a;
在这里插入图片描述
这里我们要更新 name 为 Kevin 的数据的年龄&＃xff1a;首先指定查询条件&＃xff0c;然后将数据查询出来&＃xff0c;修改年龄后调用 update 方法将原条件和修改后的数据传入。

返回结果是字典形式&＃xff0c;ok 代表执行成功&＃xff0c;nModified 代表影响的数据条数。

另外&＃xff0c;我们也可以使用 $set 操作符对数据进行更新&＃xff0c;代码如下&＃xff1a;
在这里插入图片描述

这样可以只更新 student 字典内存在的字段。如果原先还有其他字段&＃xff0c;则不会更新&＃xff0c;也不会删除。而如果不用 $set 的话&＃xff0c;则会把之前的数据全部用 student 字典替换&＃xff1b;如果原本存在其他字段&＃xff0c;则会被删除。

另外&＃xff0c;update 方法其实也是官方不推荐使用的方法。这里也分为 update_one 方法和 update_many 方法&＃xff0c;用法更加严格&＃xff0c;它们的第二个参数需要使用 $ 类型操作符作为字典的键名&＃xff0c;示例如下&＃xff1a;
在这里插入图片描述
这里调用了 update_one 方法&＃xff0c;其第二个参数不能再直接传入修改后的字典&＃xff0c;而是需要使用 {‘$set’: student} 这样的形式&＃xff0c;其返回结果是 UpdateResult 类型。然后分别调用 matched_count 和 modified_count 属性&＃xff0c;获得匹配的数据条数和影响的数据条数。
在这里插入图片描述
我们再看一个例子&＃xff1a;

这里指定查询条件为年龄大于 20&＃xff0c;然后更新条件为 {‘$inc’: {‘age’: 1}}&＃xff0c;也就是年龄加 1&＃xff0c;执行之后会将第一条符合条件的数据年龄加 1。
在这里插入图片描述

可以看到匹配条数为 1 条&＃xff0c;影响条数也为 1 条。

如果调用 update_many 方法&＃xff0c;则会将所有符合条件的数据都更新&＃xff0c;示例如下

在这里插入图片描述

可以看到&＃xff0c;这时所有匹配到的数据都会被更新。

11. 删除

删除操作比较简单&＃xff0c;直接调用 remove 方法指定删除的条件即可&＃xff0c;此时符合条件的所有数据均会被删除。示例如下&＃xff1a;

在这里插入图片描述

在这里插入图片描述
另外&＃xff0c;这里依然存在两个新的推荐方法 —— delete_one 和 delete_many。示例如下&＃xff1a;

在这里插入图片描述
delete_one 即删除第一条符合条件的数据&＃xff0c;delete_many 即删除所有符合条件的数据。它们的返回结果都是 DeleteResult 类型&＃xff0c;可以调用 deleted_count 属性获取删除的数据条数

12. 其他操作

另外&＃xff0c;PyMongo 还提供了一些组合方法&＃xff0c;如 find_one_and_delete、find_one_and_replace 和 find_one_and_update&＃xff0c;它们是查找后删除、替换和更新操作&＃xff0c;其用法与上述方法基本一致。

另外&＃xff0c;还可以对索引进行操作&＃xff0c;相关方法有 create_index、create_indexes 和 drop_index 等。

关于 PyMongo 的详细用法&＃xff0c;可以参见官方文档&＃xff1a;http://api.mongodb.com/python/current/api/pymongo/collection.html。

另外&＃xff0c;还有对数据库和集合本身等的一些操作&＃xff0c;这里不再一一讲解&＃xff0c;可以参见官方文档&＃xff1a;http://api.mongodb.com/python/current/api/pymongo/。

总结
本节讲解了使用 PyMongo 操作 MongoDB 进行数据增删改查的方法&＃xff0c;后面我们会在实战案例中应用这些操作进行数据存储。

推荐阅读

hbase
深入解析NoSQL数据库：键值对、文档、列式存储与图数据库的应用与特点

本文深入探讨了NoSQL数据库的四大主要类型：键值对存储、文档存储、列式存储和图数据库。NoSQL（Not Only SQL）是指一系列非关系型数据库系统，它们不依赖于固定模式的数据存储方式，能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构；文档存储支持复杂的数据对象；列式存储优化了大数据量的读写性能；而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景，本文将详细分析它们的特点及应用实例。 ... [详细]

蜡笔小新 2024-11-09 14:47:28
config
MongoDB核心概念详解

本文介绍了NoSQL数据库的概念及其应用场景，重点解析了MongoDB的基本特性、数据结构以及常用操作。MongoDB是一个高性能、高可用且易于扩展的文档数据库系统。 ... [详细]

蜡笔小新 2024-11-15 10:24:19
install
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
php
MongoDB的核心特性与架构解析

本文深入探讨了MongoDB的核心特性，包括其强大的查询语言、灵活的文档模型以及高效的索引机制。此外，还详细介绍了MongoDB的体系结构，解释了其文档、集合和数据库的层次关系，并对比了MongoDB与传统关系型数据库（如MySQL）的逻辑结构。 ... [详细]

蜡笔小新 2024-12-20 19:23:54
client
58同城的Elasticsearch应用与平台构建实践

本文由58同城高级架构师于伯伟分享，由陈树昌编辑整理，内容源自DataFunTalk。文章探讨了Elasticsearch作为分布式搜索和分析引擎的应用，特别是在58同城的实施案例，包括集群优化、典型应用实例及自动化平台建设等方面。 ... [详细]

蜡笔小新 2024-12-11 19:31:21
char
从迷茫到收获：阿里腾讯实习Offer的求取之路

本文回顾了作者在求职阿里和腾讯实习生过程中，从最初的迷茫到最后成功获得Offer的心路历程。文中不仅分享了个人的面试经历，还提供了宝贵的面试准备建议和技巧。 ... [详细]

蜡笔小新 2024-11-22 19:32:32
bit
在CentOS 7环境中安装配置Redis及使用Redis Desktop Manager连接时的注意事项与技巧

在 CentOS 7 环境中安装和配置 Redis 时，需要注意一些关键步骤和最佳实践。本文详细介绍了从安装 Redis 到配置其基本参数的全过程，并提供了使用 Redis Desktop Manager 连接 Redis 服务器的技巧和注意事项。此外，还探讨了如何优化性能和确保数据安全，帮助用户在生产环境中高效地管理和使用 Redis。 ... [详细]

蜡笔小新 2024-11-11 18:27:44
post
PHP 编程疑难解析与知识点汇总

本文详细解答了 PHP 编程中的常见问题，并提供了丰富的代码示例和解决方案，帮助开发者更好地理解和应用 PHP 知识。 ... [详细]

蜡笔小新 2024-12-28 12:22:34
buffer
2019年前端技术趋势及职业发展路径

本文探讨了2019年前端技术的发展趋势，包括工具化、配置化和泛前端化等方面，并提供了详细的学习路线和职业规划建议。 ... [详细]

蜡笔小新 2024-12-19 10:19:35
post
利用 Jest 和 Supertest 实现接口测试的全面指南

本文深入探讨了如何使用 Jest 和 Supertest 进行接口测试，通过实际案例详细解析了测试环境的搭建、测试用例的编写以及异步测试的处理方法。 ... [详细]

蜡笔小新 2024-12-14 19:04:38
post
MongoDB 命令行操作指南

本文档详细介绍了如何在MongoDB命令行中执行基本操作，包括数据库的选择与创建、文档的插入与查询、文档的更新与删除等。同时，还涵盖了条件查询、统计、模糊查询等高级功能。 ... [详细]

蜡笔小新 2024-12-01 14:25:28
post
程序员必备：深入解析分布式文件系统

本文深入探讨了分布式文件系统的核心概念及其在现代数据存储解决方案中的应用，特别是针对大规模数据处理的需求。文章不仅介绍了多种流行的分布式文件系统和NoSQL数据库，还提供了选择合适系统的指导原则。 ... [详细]

蜡笔小新 2024-11-27 09:49:40
controller
构建高性能Feed流系统的设计指南

随着移动互联网的发展，Feed流系统成为了众多社交应用的核心组成部分。本文将深入探讨如何设计一个高效、稳定的Feed流系统，涵盖从基础架构到高级特性的各个方面。 ... [详细]

蜡笔小新 2024-11-26 12:55:53
controller
MongoDB入门指南

本文档旨在为初学者提供MongoDB的基础知识介绍，包括其作为文档型数据库的特点、基本概念以及如何通过命令行界面（CLI）执行基本的操作。 ... [详细]

蜡笔小新 2024-11-23 19:43:20
post
Redis：缓存与内存数据库详解

本文介绍了数据库的基本分类，重点探讨了关系型与非关系型数据库的区别，并详细解析了Redis作为非关系型数据库的特点、工作模式、优点及持久化机制。 ... [详细]

蜡笔小新 2024-11-18 14:16:11

h619718610

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章