Django+MongoDB批量插入数据

作者：筷子 | 来源：互联网 | 2023-02-13 16:17

在百万级和千万级数据级别进行插入，pymongo的insert_many()方法有着很强的优势。原因是每次使用insert_one()方法进行插入数据，都是要对数据库服务器进行一次

在百万级和千万级数据级别进行插入，pymongo的insert_many()方法有着很强的优势。原因是每次使用insert_one()方法进行插入数据，都是要对数据库服务器进行一次访问，而这样的访问是基于TCP连接的，每次在发送请求的时候服务器端都需要对TCP报文进行解析。而使用insert_many()，可以一次给服务器发送大量的数据，只需要一次的TCP报文解析，既可以插入大量数据，避免了大量的报文解析工作。这样一来，数据插入的效率就会大大提升。所以，为了提升效率，笔者建议在十万数据级别以上使用insert_many()方法。

下面是我通过使用pymongo原生方法和框架中的经常使用的Mongoengine进行的性能测试。

一、使用Mongoengine

Mongoengine是基于面向对象的，在构建集合的时候非常方便，就直接写一个类。而pymongo是继承于MongoDB的文档类型的，所以在框架中使用会相对没有那么方便。但是Mongoengine目前来讲还有许多还没有完善的地方。个人觉得，还是根据实际的需求来选择不同的引擎。

插入数据方面，Mongoengine在0.15版本之前只有save()方法，在0.15版本之后添加了insert_one()和inset_many()方法，具体可以看官方文档：。

但是由于Django官方没有将MongoDB列为建议使用的数据库，所以不支持0.9之后的版本。

代码：

Django+MongoDB批量插入数据

插入一千条数据

插入方法：使用save()保存数据

耗时：大概2秒钟

Django+MongoDB批量插入数据

插入10万条数据

插入方法：使用save()

耗时：两分多钟

Django+MongoDB批量插入数据

二、使用pymongo

（1）测试1：插入一百万数据

插入方法：insert_many()

耗时：28秒

代码：

Django+MongoDB批量插入数据

耗时时间：

Django+MongoDB批量插入数据

插入结果：

Django+MongoDB批量插入数据

（2）测试2：在一百万条数据基础上增加十万数据

插入方法：insert_one()

耗时：1分钟29秒

代码：

Django+MongoDB批量插入数据

耗时时间：

Django+MongoDB批量插入数据

插入结果：

Django+MongoDB批量插入数据

通过上面的测试，很明显的看到，无论是使用Mongoengine的save()方法，还是使用pymongo的insert_one()方法，在大数据量的插入时都会耗费大量的时间，在百万级别的数据就已经需要花费5-6个小时的时间了，显然，这样的效率是很低的。更别说千万级别的数据了。

而使用pymongo的insert_many()方法，在插入百万条数据只是花费了28秒，速度好像快得有点难以想象是吧？按照这样的推算，千万级别数据的数据也大概花费不到5分钟就可以完成了。

那么为什么pymongo的原生方法insert_many()有这么高的效率呢？如何能更进一步提高效率呢？通过阅读源码和分析参数，来了解一下。

insert_many() 定义源码：

def insert_many(self, documents, ordered=True,
             bypass_document_validation=False, session=None):

官方对参数的解析：

Django+MongoDB批量插入数据

参数：

documents就是我们需要插入的数据文档，也就是上文的articles

下面重点讲ordered和bypass_document_validaion

1. ordered

默认情况下是True，即按顺序来插入多条数据，如果发生错误，就会终止后面的插入。如果设置为False，文档将以任意的顺序将数据插入到服务器中，并且是并行进行的，客户端会尽力将所有的数据都插入到服务器中。所以，设置为False会在数据的插入效率有很大的提升，但也要付出一点数据安全性的代价。

2. bypass_document_validation

默认情况为False。如果为True，那么允许在写入发生错误的时候推出文档级别的验证，不影响后面的数据插入。

设置合适的参数值，可以更好地为海量数据的插入提供更好的插入环境。

笔者：

欢迎评论！希望本人的文章对阅读者有帮助，在写作过程中难免有疏漏，希望读者在发现错误的地方及时向我提出，我会尽快修改自己的技术疏漏。我也会定时写一些自己学习中的收获和项目中的经验。希望前行的路上，有更多乐于分享的人一起作伴。

推荐阅读

php
浅析PHP中$_SERVER["HTTP_REFERER"]的使用方法及其应用场景

在PHP后端开发中，`$_SERVER["HTTP_REFERER"]` 是一个非常有用的超级全局变量，它可以获取用户访问当前页面之前的URL。本文将详细介绍该变量的使用方法及其在不同场景下的应用，如页面跳转跟踪、安全验证和用户行为分析等。通过实例解析，帮助开发者更好地理解和利用这一功能。 ... [详细]

蜡笔小新 2024-10-31 10:12:08
php
掌握PHP框架开发与应用的核心知识点：构建高效PHP框架所需的技术与能力综述

掌握PHP框架开发与应用的核心知识点对于构建高效PHP框架至关重要。本文综述了开发PHP框架所需的关键技术和能力，包括但不限于对PHP语言的深入理解、设计模式的应用、数据库操作、安全性措施以及性能优化等方面。对于初学者而言，熟悉主流框架如Laravel、Symfony等的实际应用场景，有助于更好地理解和掌握自定义框架开发的精髓。 ... [详细]

蜡笔小新 2024-10-31 14:51:01
php
PHP连接MySQL的三种方法及预处理语句防止SQL注入的技术详解

PHP连接MySQL的三种方法及预处理语句防止SQL注入的技术详解 ... [详细]

蜡笔小新 2024-10-29 16:44:38
php
深入浅出解析HTTP协议的核心功能与应用

前言——协议是指预先设定的通信规则，确保双方能够按照既定标准进行有效沟通，从而实现准确的信息交换。例如，驯兽师通过拍手使动物坐下，这实际上是一种预设的协议。本文将详细探讨HTTP协议的核心功能及其广泛应用，解析其在现代网络通信中的重要作用。 ... [详细]

蜡笔小新 2024-10-26 18:47:54
settings
Django项目中配置媒体文件路径的详细步骤与最佳实践

在Django项目中配置媒体文件路径的详细步骤包括：首先，创建一个新的应用（如 `app02`），然后在 `settings.py` 文件中配置媒体文件的存储路径。具体来说，需要导入 `os` 模块，并使用 `os.path.join` 方法来指定媒体文件的保存目录。此外，建议在开发和生产环境中分别设置不同的媒体文件路径，以确保项目的灵活性和安全性。为了更好地管理和访问媒体文件，还可以在 `urls.py` 中添加相应的URL配置，以便在开发服务器上直接访问这些文件。 ... [详细]

蜡笔小新 2024-10-26 17:30:54
format
MySQL 8.0 二进制日志格式详解及官方文档参考

MySQL 8.0 中的二进制日志格式详细解析及其官方文档参考。本文介绍了MySQL服务器如何使用不同的日志记录格式来记录二进制日志，包括早期版本中基于SQL语句的复制机制（即基于语句的日志记录）。此外，还探讨了其他日志记录方式，如基于行的日志记录和混合日志记录模式，并提供了配置和管理这些日志格式的最佳实践。 ... [详细]

蜡笔小新 2024-10-25 15:40:36
split
python flask面试题_Python面试的50个经典问答，助你从容通过面试（下）

26）Python中的局部变量和全局变量的使用规则是什么？局部变量：仅可在某个对象或函数内部使用，无法被其他对象或函数所引 ... [详细]

蜡笔小新 2024-10-11 10:21:11
php
深入解析 Django 中用户模型的自定义方法与技巧

深入解析 Django 中用户模型的自定义方法与技巧 ... [详细]

蜡笔小新 2024-11-01 10:21:38
php
Java集合框架的使用方法与性能对比分析

本文详细探讨了Java集合框架的使用方法及其性能特点。首先，通过关系图展示了集合接口之间的层次结构，如`Collection`接口作为对象集合的基础，其下分为`List`、`Set`和`Queue`等子接口。其中，`List`接口支持按插入顺序保存元素且允许重复，而`Set`接口则确保元素唯一性。此外，文章还深入分析了不同集合类在实际应用中的性能表现，为开发者选择合适的集合类型提供了参考依据。 ... [详细]

蜡笔小新 2024-11-01 09:51:38
php
深入解析Spring框架：简易版AOP实现方法探讨

本文作为“实现简易版Spring系列”的第五篇，继前文深入探讨了Spring框架的核心技术之一——控制反转（IoC）之后，将重点转向另一个关键技术——面向切面编程（AOP）。对于使用Spring框架进行开发的开发者来说，AOP是一个不可或缺的概念。了解AOP的背景及其基本原理，对于掌握这一技术至关重要。本文将通过具体示例，详细解析AOP的实现机制，帮助读者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-10-31 19:58:14
php
信息漏洞概述与基础知识（第一部分）

本文首先对信息漏洞的基础知识进行了概述，重点介绍了几种常见的信息泄露途径。具体包括目录遍历、PHPINFO信息泄露以及备份文件的不当下载。其中，备份文件下载涉及网站源代码、`.bak`文件、Vim缓存文件和`DS_Store`文件等。目录遍历漏洞的详细分析为后续深入研究奠定了基础。 ... [详细]

蜡笔小新 2024-10-31 19:32:18
php
Twitter架构深度解析与学习心得

作为140字符的开创者，Twitter看似简单却异常复杂。其简洁之处在于仅用140个字符就能实现信息的高效传播，甚至在多次全球性事件中超越传统媒体的速度。然而，为了支持2亿用户的高效使用，其背后的技术架构和系统设计则极为复杂，涉及高并发处理、数据存储和实时传输等多个技术挑战。 ... [详细]

蜡笔小新 2024-10-31 17:58:20
php
Java 零基础入门：SQL Server 学习笔记（第21篇）

Java 零基础入门：SQL Server 学习笔记（第21篇） ... [详细]

蜡笔小新 2024-10-31 03:32:00
php
MySQL性能优化与调参指南【数据库管理】

本文详细探讨了MySQL数据库的性能优化与参数调整技巧，旨在帮助数据库管理员和开发人员提升系统的运行效率。内容涵盖索引优化、查询优化、配置参数调整等方面，结合实际案例进行深入分析，提供实用的操作建议。此外，还介绍了常见的性能监控工具和方法，助力读者全面掌握MySQL性能优化的核心技能。 ... [详细]

蜡笔小新 2024-10-31 03:13:07
php
每日思维洞察：2020年8月19日的深度分析与反思

在2020年8月19日的深度分析中，我们探讨了HTML标签中同时存在`a`标签的`href`和`onclick`属性时的触发顺序问题。此外，还讨论了如何在一个自适应高度的父级`div`中，使两个子`div`中的一个固定高度为300px，另一个自动填充剩余空间的方法。最后，文章详细介绍了JavaScript异步加载的多种实现方式，包括但不限于`async`、`defer`属性以及动态脚本插入技术，为开发者提供了丰富的技术参考。 ... [详细]

蜡笔小新 2024-10-28 19:59:35

筷子

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章