当前位置: 开发笔记 > 数据库 > 正文

关于mongodb创建索引的一些经验总结

作者：ai琳伟_261 | 来源：互联网 | 2018-06-06 07:36

想来接触mongodb已经快一年了，对于它的索引知识也积攒了不少经验，趁着这个月黑风高的夜晚，就把mongodb的索引总结一番吧。一，索引介绍mongodb具有两类索引，分别为单键索引和复合索引。1.单键索引是最简单的一种索引，创建单键索引的开销要比复合索引

想来接触mongodb已经快一年了，对于它的索引知识也积攒了不少经验，趁着这个月黑风高的夜晚，就把mongodb的索引总结一番吧。一，索引介绍 mongodb具有两类索引，分别为单键索引和复合索引。 1.单键索引是最简单的一种索引，创建单键索引的开销要比复合索引

想来接触mongodb已经快一年了，对于它的索引知识也积攒了不少经验，趁着这个月黑风高的夜晚，就把mongodb的索引总结一番吧。

一，索引介绍

mongodb具有两类索引，分别为单键索引和复合索引。

1.单键索引是最简单的一种索引，创建单键索引的开销要比复合索引小很多。单键索引主要用于针对单值查询的条件。

2.复合索引是将文档中的几个键联合起来创建的一种索引，创建这种索引需要更多的空间与性能开销。分别体现在：

1).在给大量数据创建复合索引时，会阻塞数据库的查询，更不用说修改和插入操作了；

2).插入一条数据时，要花费更多的时间来给复合索引加数据；

3).创建的复合索引所站得空间大小根据数据的类型以及键的数量而有所不同。比如，如果你用五个NumberInt的键创建的复合索引的空间大小，并不会比两个NumberInt和一个String类型创建的复合索引占用更多的空间。索引在设计数据类型时，尽量将数据类型设置为NumberInt类型，以及尽量少使用string类型的数据做索引；

二，创建索引

创建索引的语句很简单。

1.单键索引的创建：db.test.ensureIndex({name:1},{name:&＃39;index_name&＃39;})

2.复合索引的创建：db.test.ensureIndex({name:1,age:1,sex:1},{name:&＃39;index_nas&＃39;})

三，索引优化

索引的优化是一个重头戏，需要详细的来解释。我得测试数据插入了100万条。字段分别为name,sex,type,time,id

1.我们来看一个简单的查询：db.test.find({name:&＃39;name_1&＃39;}) 相信大家对这个查询已经很熟悉了，然后我们来看看这个语句的索引执行计划：

{
	"cursor" : "BasicCursor",   查询语句所用到的索引，而BasicCursor代表没有索引
	"isMultiKey" : false,     是否为复合索引
	"n" : 1,       查询到的结果数
	"nscannedObjects" : 1000000,    扫描的文档数量
	"nscanned" : 1000000,     扫面的索引数量
	"nscannedObjectsAllPlans" : 1000000,   //影响的所有的被扫描文档的总数量
	"nscannedAllPlans" : 1000000,      //所有被扫描的索引的总数量
	"scanAndOrder" : false,  是否排序
	"indexOnly" : false,
	"nYields" : 2,
	"nChunkSkips" : 0,
	"millis" : 342,   花费的时间
	"indexBounds" : {
		
	},
	"server" : "node1:27017"
}

从这个执行计划中可以看出，该条查询语句查询一条数据需要扫描整个表，这肯定扯淡了嘛，那这时候就该给这个字段创建索引了，创建一个单键索引

db.test.ensureIndex({name:1},{name:&＃39;index_name&＃39;})

创建完索引之后，再来查看看这条查询语句的执行计划：

{
	"cursor" : "BtreeCursor index_name",
	"isMultiKey" : false,
	"n" : 1,
	"nscannedObjects" : 1,
	"nscanned" : 1,
	"nscannedObjectsAllPlans" : 1,
	"nscannedAllPlans" : 1,
	"scanAndOrder" : false,
	"indexOnly" : false,
	"nYields" : 0,
	"nChunkSkips" : 0,
	"millis" : 0,
	"indexBounds" : {
		"name" : [
			[
				"name_1",
				"name_1"
			]
		]
	},
	"server" : "node1:27017"
}

简直是逆天啊，nscanned和nscannedObjects居然从100万下降到1条，也就是查询数据时，只扫描了一条就已经找到，而且花费的时间是0秒，没有创建索引时，居然是342毫秒，绝对索引威武啊。

2.这时候我想通过type和sex来组合查询某一条件的数据: db.test.find({type:1,sex:0}) 看看这句的执行计划：

{
	"cursor" : "BasicCursor",
	"isMultiKey" : false,
	"n" : 55555,
	"nscannedObjects" : 1000000,
	"nscanned" : 1000000,
	"nscannedObjectsAllPlans" : 1000000,
	"nscannedAllPlans" : 1000000,
	"scanAndOrder" : false,
	"indexOnly" : false,
	"nYields" : 0,
	"nChunkSkips" : 0,
	"millis" : 529,
	"indexBounds" : {
		
	},
	"server" : "node1:27017"
}

从这个计划中可以看出，为了查找几万条数据，它也扫描了整个表，很显然，该创建索引了：

db.test.ensureIndex({type:1,sex:1},{name:&＃39;index_ts&＃39;})

创建完索引之后，再来执行查询语句，看看执行计划：

db.test.find({type:1,sex:0}).explain()
{
	"cursor" : "BtreeCursor index_ts",
	"isMultiKey" : false,
	"n" : 55555,
	"nscannedObjects" : 55555,
	"nscanned" : 55555,
	"nscannedObjectsAllPlans" : 55555,
	"nscannedAllPlans" : 55555,
	"scanAndOrder" : false,
	"indexOnly" : false,
	"nYields" : 0,
	"nChunkSkips" : 0,
	"millis" : 112,
	"indexBounds" : {
		"type" : [
			[
				1,
				1
			]
		],
		"sex" : [
			[
				0,
				0
			]
		]
	},
	"server" : "node1:27017"
}

很显然，绝对是一个最佳索引，因为n=nscannedObjects=nscanned了，而且查询时间从529毫秒下降到112毫秒了，这也是一个质的飞跃，可以明显的看到，它使用了刚刚创建的index_ts索引。

现在我又有一个需求了，我想通过时间再来排序，好的，我们执行查询语句： db.test.find({type:1,sex:0}).sort({time:-1}) 我们来看看这个查询语句的执行计划：

{
	"cursor" : "BtreeCursor index_ts",
	"isMultiKey" : false,
	"n" : 55555,
	"nscannedObjects" : 1000000,
	"nscanned" : 1000000,
	"nscannedObjectsAllPlans" : 1000000,
	"nscannedAllPlans" : 1000000,
	"scanAndOrder" : true,
	"indexOnly" : false,
	"nYields" : 1,
	"nChunkSkips" : 0,
	"millis" : 695,
	"indexBounds" : {
		"type" : [
			[
				1,
				1
			]
		],
		"sex" : [
			[
				0,
				0
			]
		]
	},
	"server" : "node1:27017"
}

看到没，这个查询语句跟上一个创建索引之后的查询出来的结果相差还是很大的，scanAndOrder和millis,时间花费了将近700毫秒，而且在查询完毕之后还要排序，这也太不近人情了，就加了一个排序操作，怎么会让它从白天鹅变成丑小鸭了呢？啊，关键参数就是scanAndOrder，意思就是在内存中把结果排序了嘛，那好啊，既然你如此薄情，那我就建个复合索引来对抗: db.test.ensureIndex({type:1,sex:1,time:-1},{name:&＃39;index_tst&＃39;})

{
	"cursor" : "BtreeCursor index_tst",
	"isMultiKey" : false,
	"n" : 55555,
	"nscannedObjects" : 55555,
	"nscanned" : 55555,
	"nscannedObjectsAllPlans" : 55555,
	"nscannedAllPlans" : 55555,
	"scanAndOrder" : false,
	"indexOnly" : false,
	"nYields" : 0,
	"nChunkSkips" : 0,
	"millis" : 126,
	"indexBounds" : {
		"type" : [
			[
				1,
				1
			]
		],
		"sex" : [
			[
				0,
				0
			]
		],
		"time" : [
			[
				{
					"$maxElement" : 1
				},
				{
					"$minElement" : 1
				}
			]
		]
	},
	"server" : "node1:27017"
}

看到了吗？各种参数又回到最佳状态了。这时候可能有人会问了，为什么要把time放到索引的最后而不是其它位置呢？其实这在创建索引时是有要求的，即：

将等值索引放在最前面
尽量将排序字段放在范围字段的前面
$nin和$ne跟索引没有关系

接下来我们再给查询语句加条件： db.test.find({type:1,sex:0,id:{$gt:1,$lt:500000}}) 执行计划如下:
```
{
	"cursor" : "BasicCursor",
	"isMultiKey" : false,
	"n" : 55555,
	"nscannedObjects" : 1000000,
	"nscanned" : 1000000,
	"nscannedObjectsAllPlans" : 1000000,
	"nscannedAllPlans" : 1000000,
	"scanAndOrder" : false,
	"indexOnly" : false,
	"nYields" : 2,
	"nChunkSkips" : 0,
	"millis" : 553,
	"indexBounds" : {
		
	},
	"server" : "node1:27017"
}
```
可以看到，只返回两万多条数据，但是却扫描了整个表，这肯定是很蛋疼的事情嘛，索引走起：

db.test.ensureIndex({type:1,sex:1,id:1},{name:&＃39;index_tis&＃39;})
```
{
	"cursor" : "BtreeCursor index_tis",
	"isMultiKey" : false,
	"n" : 55555,
	"nscannedObjects" : 55555,
	"nscanned" : 55555,
	"nscannedObjectsAllPlans" : 55555,
	"nscannedAllPlans" : 55555,
	"scanAndOrder" : false,
	"indexOnly" : false,
	"nYields" : 1,
	"nChunkSkips" : 0,
	"millis" : 137,
	"indexBounds" : {
		"type" : [
			[
				1,
				1
			]
		],
		"sex" : [
			[
				0,
				0
			]
		],
		"id" : [
			[
				1,
				1000000
			]
		]
	},
	"server" : "node1:27017"
}
```
很显然，这是个非常不错的组合索引，那为何不把id放在其它地方，偏偏放在最后面呢？因为在mongodb中，索引是从左到右执行的，因此显然要从左到右一次过滤最大数量的数据显然type和sex的组合过滤数据量要比id高更多，因为id的忙查率要远高于这两个组合。

接着再把按time排序加上，查询：db.test.find({type:1,sex:1,id:{$gt:0,$lt:1000000}}).sort({time:-1}).explain()
```
{
	"cursor" : "BasicCursor",
	"isMultiKey" : false,
	"n" : 55556,
	"nscannedObjects" : 1000000,
	"nscanned" : 1000000,
	"nscannedObjectsAllPlans" : 1000000,
	"nscannedAllPlans" : 1000000,
	"scanAndOrder" : true,
	"indexOnly" : false,
	"nYields" : 1,
	"nChunkSkips" : 0,
	"millis" : 725,
	"indexBounds" : {
		
	},
	"server" : "node1:27017"
}
```
可以看到，这个查询语句也是极其慢的，而且还要再内存中排序，所以肯定要创建索引了：

db.test.ensureIndex({type:1,sex:1,id:1,time:-1},{name:&＃39;index_tist&＃39;}) 我们先这样创建索引，看看执行计划：
```
{
	"cursor" : "BtreeCursor index_tist",
	"isMultiKey" : false,
	"n" : 55556,
	"nscannedObjects" : 55556,
	"nscanned" : 55556,
	"nscannedObjectsAllPlans" : 55657,
	"nscannedAllPlans" : 55657,
	"scanAndOrder" : true,
	"indexOnly" : false,
	"nYields" : 0,
	"nChunkSkips" : 0,
	"millis" : 404,
	"indexBounds" : {
		"type" : [
			[
				1,
				1
			]
		],
		"sex" : [
			[
				1,
				1
			]
		],
		"id" : [
			[
				0,
				1000000
			]
		],
		"time" : [
			[
				{
					"$maxElement" : 1
				},
				{
					"$minElement" : 1
				}
			]
		]
	},
	"server" : "node1:27017"
}
```
看到了没有，虽然查询时间缩短了，但是这个查询结果还是会排序结果，好，我们再把索引改改：

db.test.ensureIndex({type:1,sex:1,time:-1,id:1},{name:&＃39;index_tist&＃39;})
```
{
	"cursor" : "BtreeCursor index_tist",
	"isMultiKey" : false,
	"n" : 55556,
	"nscannedObjects" : 55556,
	"nscanned" : 55556,
	"nscannedObjectsAllPlans" : 55657,
	"nscannedAllPlans" : 55657,
	"scanAndOrder" : false,
	"indexOnly" : false,
	"nYields" : 0,
	"nChunkSkips" : 0,
	"millis" : 168,
	"indexBounds" : {
		"type" : [
			[
				1,
				1
			]
		],
		"sex" : [
			[
				1,
				1
			]
		],
		"time" : [
			[
				{
					"$maxElement" : 1
				},
				{
					"$minElement" : 1
				}
			]
		],
		"id" : [
			[
				0,
				1000000
			]
		]
	},
	"server" : "node1:27017"
}
```
再来看看，快到什么程度了，这个查询的速度和参数条件已经比上一个索引的快了很多，那为什么会出现这种情况呢？为什么time在id的前后会有不同的表现？这是因为通过type和sex字段过滤完之后，已经在内存中有了数据，而这些数据下一步需要怎么办？是先通过id来筛选，还是按照排序筛选呢？这里有一个知识点，在把id放在time前面时，程序首先会取复合id值，然后再把复合的数据排序，但是如果id放在排序的后面，那么程序将直接通过顺序扫描索引树的方式取出复合id范围的数据。

四，总结

1.mongodb创建索引难点在于排序和范围查询的字段位置选择

2.mongodb的复合索引的索引截取查询是顺序的，即如果(a:1,b:1,c:1},则可以是查询{a:1},{a:1,b:1},{a:1,b:1,c:1}中得任何一种都会使用该索引，其它查询情况将不会用到该索引；

3.尽量创建更少的索引以提高数据库性能

4.以上的索引优化只是生产环境的一部分，具体情况可能还要看自己的业务来定

mongodb

推荐阅读

mongodb
系统日志设计的最佳实践

探讨如何高效设计系统日志，确保其具备良好的可读性、可靠性和扩展性。 ... [详细]

蜡笔小新 2024-12-22 13:22:01
数据库
MongoDB的核心特性与架构解析

本文深入探讨了MongoDB的核心特性，包括其强大的查询语言、灵活的文档模型以及高效的索引机制。此外，还详细介绍了MongoDB的体系结构，解释了其文档、集合和数据库的层次关系，并对比了MongoDB与传统关系型数据库（如MySQL）的逻辑结构。 ... [详细]

蜡笔小新 2024-12-20 19:23:54
hbase
58同城的Elasticsearch应用与平台构建实践

本文由58同城高级架构师于伯伟分享，由陈树昌编辑整理，内容源自DataFunTalk。文章探讨了Elasticsearch作为分布式搜索和分析引擎的应用，特别是在58同城的实施案例，包括集群优化、典型应用实例及自动化平台建设等方面。 ... [详细]

蜡笔小新 2024-12-11 19:31:21
mongodb
MongoDB中的全文索引创建与使用

本文详细介绍了如何在MongoDB中创建全文索引及其使用方法。全文索引允许用户通过部分匹配的方式快速搜索文档中的文本内容，但需注意的是，每个集合仅能创建一个全文索引。 ... [详细]

蜡笔小新 2024-12-11 12:02:22
insert
MongoDB中的多键索引详解

多键索引（MultiKey Indexes）是在包含数组类型字段上创建的特殊索引，旨在优化对数组元素的查询性能。本文将通过实例介绍如何在MongoDB中创建和使用多键索引。 ... [详细]

蜡笔小新 2024-12-10 14:49:03
oracle
ODBC介绍：开放式数据库连接详解

本文详细介绍了ODBC（开放式数据库连接），这是一种允许应用程序访问多种数据库系统的标准API。自1992年由微软与Simba合作推出以来，ODBC已成为跨平台数据访问的重要标准。 ... [详细]

蜡笔小新 2024-12-09 13:57:24
redis
利用GitHub热门资源，成功斩获阿里、京东、腾讯三巨头Offer

Spring框架作为Java生态系统中的重要组成部分，因其强大的功能和灵活的扩展性，被广泛应用于各种规模的企业级应用开发中。本文将通过一份在GitHub上获得极高评价的Spring全家桶文档，探讨如何掌握Spring框架及其相关技术，助力职业发展。 ... [详细]

蜡笔小新 2024-12-09 12:55:09
mongodb
Spring Boot 中如何实现 MongoDB 实体类映射及复杂文档查询

本文探讨了在 Spring Boot 应用程序中使用 MongoDB 进行复杂文档查询的方法，特别是如何通过实体类映射来处理包含嵌套对象和列表的数据结构。 ... [详细]

蜡笔小新 2024-12-07 14:18:40
数据库
MongoDB与Redis性能对比及Python测试脚本

近期参与了一个旨在提高在线平台大规模查询响应速度的项目，预计处理的数据量为2-3亿条，数据库并发量约为每秒1500次，未来可能增至3000次。通过对比Redis和MongoDB，最终选择了MongoDB，因其具备优秀的横向扩展性和GridFS支持下的Map/Reduce功能。 ... [详细]

蜡笔小新 2024-12-05 18:35:20
hbase
ArchSummit深圳2014：讲师阵容公布，报名进入倒计时

ArchSummit深圳2014将于7月18日拉开帷幕，所有讲师已确认，涵盖9个热门话题，共36场精彩报告。InfoQ中文站提供了详细的讲师和报告列表。 ... [详细]

蜡笔小新 2024-12-05 12:26:16
mysql
MongoDB ReplSet复制集群构建指南

本文详细介绍了如何构建MongoDB的ReplSet复制集群，包括环境准备、配置文件设置以及初始化复制集群的具体步骤。 ... [详细]

蜡笔小新 2024-12-04 09:07:26
数据库
Node.js在超市管理系统中的应用与实践

本文介绍了使用Node.js开发超市管理系统的经验分享，重点讨论了项目中使用的技术栈及其实现细节，包括前端Bootstrap和后端Express框架的应用，以及MongoDB数据库的操作。 ... [详细]

蜡笔小新 2024-12-02 16:57:22
数据库
MongoDB 命令行操作指南

本文档详细介绍了如何在MongoDB命令行中执行基本操作，包括数据库的选择与创建、文档的插入与查询、文档的更新与删除等。同时，还涵盖了条件查询、统计、模糊查询等高级功能。 ... [详细]

蜡笔小新 2024-12-01 14:25:28
oracle
Lepus: 高效的企业级数据库监控解决方案

访问官方网站：http://www.lepus.cc/。Lepus（天兔）数据库监控系统是由一位资深数据库管理员（现任职于一家知名互联网公司）专为互联网企业设计的专业数据库监控平台。该系统旨在提供全面的数据库性能监控与管理服务，支持多种主流数据库类型。 ... [详细]

蜡笔小新 2024-12-01 11:38:53
数据库
开发笔记:Mongodb副本集集群搭建

开发笔记:Mongodb副本集集群搭建 ... [详细]

蜡笔小新 2024-11-30 16:16:20

ai琳伟_261

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章