关于MongoDB查询性能的研究

作者：业余爱好者 | 来源：互联网 | 2014-05-28 16:53

上一篇：MongodbVSMysql查询性能，测试了mongodb与mysql的查询性能。结果说明mongodb性能可以，可以代替mysql来使用。但是这个测试都是在百万级别，我的场景在KW级别。所以还要对mongodb在kw级别下测试效果。我测试环境是4G内存（有好

上一篇：Mongodb VS Mysql 查询性能，测试了 mongodb 与 mysql 的查询性能。结果说明 mongodb 性能可以，可以代替 mysql 来使用。

但是这个测试都是在百万级别，我的场景在 KW 级别。所以还要对 mongodb 在 kw 级别下测试效果。

我测试环境是 4G 内存（有好些内存被其它程序占用），2kw 数据，查询随机生成 id（一次查询 20 个id）。

在这样的环境中测试不理想，比较失望。平均一次查询 500ms（比 mysql 还差，特别是在并发查询下，性能较差。很底的吞吐量）。查看其索引大小（用 db.mycoll.stats() 可以查询）：2kw 数据中有 1.1G 左右的索引，存储的数据在 11G 左右。

测试过程中发现 iowait 占 50% 左右，看来还是 io 的瓶颈。还看到 mongodb 使用的内存不多（小于索引的大小，看来这机器不足够来测试）。

换了个有可用 6G 内存的机器。在 50 个并发下，可以达到平均 100 ms 左右，算比较满意，但是并发好像能力不够强。但这个性能不能由我控制，还由机器的可用内存控制。原因就是 mongodb 没有指定可占用的内存大小，它把所有空闲内存当缓存使用，既是优点也是缺点：优点--可以最大限度提升性能；缺点--容易受其它程序干扰（占用了它的缓存）。由我测试来看，它抢占内存的能力不强。mongodb 是用内存映射文件 vmm，官方的说明：

Memory Mapped Storage Engine

This is the current storage engine for MongoDB, and it uses
memory-mapped files for all disk I/O. Using this strategy,
the operating system's virtual memory manager is in charge of
caching. This has several implications:

There is no redundancy between file system cache and database
cache: they are one and the same.

MongoDB can use all free memory on the server for cache space
automatically without any configuration of a cache size.

Virtual memory size and resident size will appear to be very
large for the mongod process. This is benign: virtual memory
space will be just larger than the size of the datafiles open and
mapped; resident size will vary depending on the amount of memory
not used by other processes on the machine.

Caching behavior (such as LRU'ing out of pages, and laziness of
page writes) is controlled by the operating system: quality of the
VMM implementation will vary by OS.

所以这么来看，我觉得 mongodb 没有指定内存大小来保证正常的缓存是个缺点。应该至少保证索引全部能放到内存中。但这个行为不是由启动程序决定，而是由环境决定（美中不足）。

官方也有段内容说到索引放到内存中：

If your queries seem sluggish, you should verify that your
indexes are small enough to fit in RAM. For instance, if you're
running on 4GB RAM and you have 3GB of indexes, then your indexes
probably aren't fitting in RAM. You may need to add RAM and/or
verify that all the indexes you've created are actually being
used.

还是希望 mongodb 中可以指定内存大小，确保它有足够内存加载索引。

小结：大数据量下（kw级）mongodb 并发查询不够理想（100-200/s）。写数据很快（我的环境，远程提交近 1w/s，估计达到 1.5W/s 是没问题的，基本不受大数据量的影响）。

贴个测试数据：

	1 id(内存使用 <1.5g)			10 id(内存使用 2-3g)			20 id(内存使用 >4g)
	1	2	3	1	2	3	1	2	3
total time	17.136	25.508	17.387	37.138	33.788	25.143	44.75	31.167	30.678
1 thread thruput	583.5668	392.0339	575.1423	269.266	295.9631	397.725	223.4637	320.8522	325.9665

total time	24.405	22.664	24.115	41.454	41.889	39.749	56.138	53.713	54.666
5 thread thruput	2048.76	2206.142	2073.398	1206.156	1193.631	1257.893	890.6623	930.8733	914.6453

total time	27.567	26.867	28.349	55.672	54.347	50.93	72.978	81.857	75.925
10 thread thruput	3627.526	3722.038	3527.461	1796.235	1840.028	1963.479	1370.276	1221.643	1317.089

total time	51.397	57.446	53.81	119.386	118.015	76.405	188.962	188.034	138.839
20 thread thruput	3891.278	3481.53	3716.781	1675.238	1694.7	2617.63	1058.414	1063.637	1440.517

total time	160.038	160.808	160.346	343.559	352.732	460.678	610.907	609.986	1411.306
50 thread thruput	3124.258	3109.298	3118.257	1455.354	1417.507	1085.357	818.4552	819.6909	354.2818

total time	2165.408	635.887	592.958	1090.264	1034.057	1060.266	1432.296	1466.971	1475.061
100 thread thruput	461.8067	1572.606	1686.46	917.209	967.0647	943.1595	698.1797	681.6767	677.9381

上面的测试分别用三种查询（每次 1,10,20 id），在不同并发下测试3次，每次发出 1w 次查询。第一行数据为所有线程累加时间（单位 ms），第二行数据为吞吐量(1w /(total time / thread num))。测试中内存使用慢慢增加，所以后面的数据可能比较高效的（高效的环境）。

从上表看，10 - 20线程比较高的吞吐量。看到内存使用，前提就是索引加载到内存中，并有些内存作为缓存。

下面有个索引查询优化的 pdf。

Indexing and Query Optimizer

ps:

默认 mongodb 服务器只有10个并发，如果要提高它的连接数，可以用 --maxConns num 来提高它的接收并发的数据。

mongodb 的 java 驱动默认最多只有 10 并发连接池。要提高它，可以在 mongo.jar 的环境中加入 MONGO.POOLSIZE 系统参数，如 java -DMONGO.POOLSIZE=50 ...

推荐阅读

client
使用Node.js连接MongoDB数据库的两种方式

本文介绍了如何使用Node.js通过两种不同的方法连接MongoDB数据库，包括使用MongoClient对象和连接字符串的方法。每种方法都有其特点和适用场景，适合不同需求的开发者。 ... [详细]

蜡笔小新 2024-11-22 18:56:55
process
MongoDB 高可用集群搭建指南：分片、读写分离与负载均衡

本文详细介绍了如何搭建一个高可用的MongoDB集群，包括环境准备、用户配置、目录创建、MongoDB安装、配置文件设置、集群组件部署等步骤。特别关注分片、读写分离及负载均衡的实现。 ... [详细]

蜡笔小新 2024-11-20 18:28:16
int
PHP面试题精选及答案解析

本文精选了新浪PHP笔试题及最新的PHP面试题，并提供了详细的答案解析，帮助求职者更好地准备PHP相关的面试。 ... [详细]

蜡笔小新 2024-11-19 20:00:19
client
如何在U8系统中连接服务器并获取数据

本文介绍了如何在U8系统中通过不同的方法连接服务器并获取数据，包括使用MySQL客户端连接实例的方法，如非SSL连接和SSL连接，并提供了详细的步骤和注意事项。 ... [详细]

蜡笔小新 2024-11-19 12:08:19
client
解决ADODB连接Access时出现80004005错误的方法

本文详细介绍了如何解决在使用ADODB连接Access数据库时遇到的80004005错误，包括错误原因分析和具体的解决步骤。 ... [详细]

蜡笔小新 2024-11-22 19:27:04
get
搭建个人博客：WordPress安装详解

计划建立个人博客来分享生活与工作的见解和经验，选择WordPress是因为它专为博客设计，功能强大且易于使用。 ... [详细]

蜡笔小新 2024-11-22 11:13:36
int
PHP与MySQL实现高效分页查询

本文探讨了如何在PHP与MySQL环境中实现高效的分页查询，包括基本的分页实现、性能优化技巧以及高级的分页策略。 ... [详细]

蜡笔小新 2024-11-22 05:45:48
int
H5技术实现经典游戏《贪吃蛇》

本文将分享一个使用HTML5技术实现的经典小游戏——《贪吃蛇》。通过H5技术，我们将探讨如何构建这款游戏的两种主要玩法：积分闯关和无尽模式。 ... [详细]

蜡笔小新 2024-11-21 20:16:59
format
SIP基础概览

本文介绍了SIP（Session Initiation Protocol，会话发起协议）的基本概念、功能、消息格式及其实现机制。SIP是一种在IP网络上用于建立、管理和终止多媒体通信会话的应用层协议。 ... [详细]

蜡笔小新 2024-11-21 17:42:08
client
软件测试行业深度解析：迈向高薪的必经之路

本文深入探讨了软件测试行业的发展现状及未来趋势，旨在帮助有志于在该领域取得高薪的技术人员明确职业方向和发展路径。 ... [详细]

蜡笔小新 2024-11-21 17:32:44
client
华为与红帽联手，加速开源电信软件革新

华为与红帽携手合作，旨在加速开源电信软件的发展，以满足大型电信运营商对灵活网络解决方案的需求。 ... [详细]

蜡笔小新 2024-11-21 13:13:49
stream
我的读书清单（持续更新）

我的读书清单（持续更新）201705311.《一千零一夜》2006（四五年级）2.《中华上下五千年》2008（初一）3.《鲁滨孙漂流记》2008（初二）4.《钢铁是怎样炼成的》20 ... [详细]

蜡笔小新 2024-11-21 13:01:23
int
利用JavaScript for循环构建九九乘法表

本文介绍如何使用JavaScript中的for循环来创建一个九九乘法表，适合初学者学习循环结构的应用。 ... [详细]

蜡笔小新 2024-11-20 16:16:22
int
解决PHP及Web开发中的UTF-8乱码问题

本文详细探讨了在Web开发中常见的UTF-8编码问题及其解决方案，包括HTML页面、PHP脚本、MySQL数据库以及JavaScript和Flash应用中的乱码问题。 ... [详细]

蜡笔小新 2024-11-20 10:58:03
int
优化MySQL大规模数据删除策略

本文探讨了在MySQL数据库中处理大规模数据删除的最佳实践，包括分批删除、利用索引、管理事务以及选择合适的删除命令等策略，旨在提升删除效率并确保系统稳定。 ... [详细]

蜡笔小新 2024-11-20 10:28:20

业余爱好者

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章