在MongoDB数据库中使用聚合工具

作者：哎哟不错哦凉皮 | 来源：互联网 | 2014-05-28 16:53

1.countcount返回集合中的文档数量db.refactor.count()不管集合有多大,都能很快的返回文档数量.可以传递查询,MongoDB会计算查询结果的数量db.refactor.count({username:refactor})但是增加查询条件会使count变慢.2.distinctdistinct用

1.count
count返回集合中的文档数量
db.refactor.count()
不管集合有多大,都能很快的返回文档数量.
可以传递查询,MongoDB会计算查询结果的数量
db.refactor.count({"username":"refactor"})
但是增加查询条件会使count变慢.

2.distinct
distinct用来找出给定键的所有不同值.使用时必须指定集合和键.
如:
db.runCommand({"distinct":"refactor","key":"username"})

3.group
group先选定分组所依据的键,MongoDB将会将集合依据选定键值的不同分成若干组.然后可以通过聚合每一组内的文档,
产生一个结果文档.
如：
db.runCommand(
{
"group":
{
"ns":"refactor",
"key":{"username":true},
"initial":{"count":0},
"$reduce":function(doc,prev)
{
prev.count++;
},
"condition":{"age":{"$gt":40}}
}
}
)
"ns":"refactor",
指定要进行分组的集合
    "key":{"username":true},
指定文档分组的依据,这里是username键,所有username键的值相等的被划分到一组,true为返回键username的值
    "initial":{"count":0},
每一组reduce函数调用的初始个数.每一组的所有成员都会使用这个累加器.
    "$reduce":function(doc,prev){...}
每个文档都对应的调用一次.系统会传递两个参数:当前文档和累加器文档.
"condition":{"age":{"$gt":40}}
这个age的值大于40的条件

4.使用完成器
完成器用于精简从数据库传到用户的数据.group命令的输出一定要能放在单个数据库相应中.
"finalize"附带一个函数,在数组结果传递到客户端之前被调用一次.
db.runCommand(
{
"group":
{
"ns":"refactor",
"key":{"username":true},
"initial":{"count":0},
"$reduce":function(doc,prev)
{
prev.count++;
},
"finalize":function(doc)
{
doc.num=doc.count;
delete doc.count;
}
}
}
)
finalize能修改传递的参数也能返回新值.

5.将数组作为键使用
有些时候分组所依据的条件很复杂,不仅是一个键.比如要使用group计算每个类别有多篇博客文章.由于有很多作者,
给文章分类时可能不规律的使用了大小写.所以,如果要是按类别名来分组,最后"MongoDB"和"mongodb"就是不同的组.
为了消除这种大小写的影响,就要定义一个函数来确定文档所依据的键.
定义分组要用到$keyf
db.runCommand(
{
  "group":
   {
    "ns":"refactor",
    "$keyf":function(doc){return {"username":doc.username.toLowerCase()}},
    "initial":{"count":0},
    "$reduce":function(doc,prev)
       {
        prev.count++;
       }
   }
}
)
6.MapReduce
count,distinct,group能做的事情MapReduce都能做.它是一个可以轻松并行化到多个服务器的聚合方法.它会
拆分问题,再将各个部分发送到不同机器上,让每台机器完成一部分.当所有机器都完成时候,再把结果汇集起来形成
最终完整的结果.
MapReduce需要几个步骤:
1.映射,将操作映射到集合中的每个文档.这个操作要么什么都不做,要么产生一个键和n个值.
2.洗牌,按照键分组,并将产生的键值组成列表放到对应键中.
3.化简,把列表中的值化简成一个单值,这个值被返回.
4.重新洗牌,直到每个键的列表只有一个值为止,这个值就是最终结果.
MapReduce的速度比group慢,group也很慢.在应用程序中,最好不要用MapReduce,可以在后台运行MapReduce
创建一个保存结果的集合,可以对这个集合进行实时查询.

找出集合中的所有键
MongoDB没有模式,所以并不知晓每个文档有多少个键.通常找到集合的所有键的做好方式是用MapReduce.
在映射阶段,想得到文档中的每个键.map函数使用emit 返回要处理的值.emit会给MapReduce一个键和一个值.
这里用emit将文档某个键的记数(count)返回({count:1}).我们为每个键单独记数,所以为文档中的每一个键调用一次emit,
this是当前文档的引用:
map=function(){
for(var key in this)
{
emit(key,{count:1})
}
};
这样返回了许许多多的{count:1}文档,每一个都与集合中的一个键相关.这种有一个或多个{count:1}文档组成的数组,
会传递给reduce函数.reduce函数有两个参数,一个是key,也就是emit返回的第一个值,另一个参数是数组,由一个或者多个
对应键的{count:1}文档组成.
reduce=function(key,emits){
total=0;
for(var i in emits){
total+=emits[i].count;
}
return {count:total};
}
reduce要能被反复被调用,不论是映射环节还是前一个化简环节.reduce返回的文档必须能作为reduce的
第二个参数的一个元素.如x键映射到了3个文档{"count":1,id:1},{"count":1,id:2},{"count":1,id:3}
其中id键用于区别.MongoDB可能这样调用reduce:
>r1=reduce("x",[{"count":1,id:1},{"count":1,id:2}])
{count:2}
>r2=reduce("x",[{"count":1,id:3}])
{count:1}
>reduce("x",[r1,r2])
{count:3}
reduce应该能处理emit文档和其他reduce结果的各种集合.
如:
mr=db.runCommand(
{
"mapreduce":"refactor",
"map":map,
"reduce":reduce,
"out":{inline:1}
}
)
或:
db.refactor.mapReduce(map,reduce,{out:{inline:1}})

"timeMillis" : 5,//操作花费的时间
"counts" : {
"input" : 10,//发往到map函数的文档个数
"emit" : 40,//在map函数中emit被调用的次数
"reduce" : 4,//在map函数中reduce被调用的次数
"output" : 4//结果集合中创建的文档数量.
},
1.mapreduce是根据map函数里调用的emit函数的第一个参数来进行分组的
2.仅当根据分组键分组后一个键匹配多个文档，才会将key和文档集合交由reduce函数处理
注意MongoDB 1.8版本以上,必须指明 out 参数
否则会报如下错误:
"assertion" : "'out' has to be a string or an object",
"assertionCode" : 13606,

MapReduce中的其他键
mapreduce,map,reduce这三个键是必须的,MapReduce命令还有其他的可选键
finalize:函数
将reduce的结果发送给这个键,这是处理过程的最后一步
keeptemp:布尔值
连接关闭时,临时结果是否保存
output:字符串
结果集合的名字,设定该项则隐含着keeptemp:true
query:文档
会在发往map函数前,先用指定条件过滤文档
sort:文档
会在发往map函数前先给文档排序
limit:整数
发往map函数文档的最大数量
scope:文档
Javascript代码中要用到的变量
verbose:布尔值
是否产生更加信息的服务器日志

推荐阅读

javascript
Python爬虫实战：51CTO学院IT课程数据抓取

本文将介绍如何利用Python爬虫技术抓取国内主流在线学习平台的数据，并以51CTO学院为例，进行详细的技术解析和实践操作。 ... [详细]

蜡笔小新 2024-12-17 11:53:33
javascript
解决MongoDB Compass远程连接问题

本文记录了在使用阿里云服务器部署MongoDB后，通过MongoDB Compass进行远程连接时遇到的问题及解决方案。详细介绍了从防火墙配置到安全组设置的各个步骤，帮助读者顺利解决问题。 ... [详细]

蜡笔小新 2024-12-26 17:50:02
spring
精通Spring Cloud：从入门到实践的全面指南

Spring Cloud因其强大的功能和灵活性，被誉为开发分布式系统的‘一站式’解决方案。它不仅简化了分布式系统中的常见模式实现，还被广泛应用于企业级生产环境中。本书内容详实，覆盖了从微服务基础到Spring Cloud的高级应用，适合各层次的开发者。 ... [详细]

蜡笔小新 2024-12-16 16:21:23
client
深入解析Spark核心架构与部署策略

本文详细探讨了Spark的核心架构，包括其运行机制、任务调度和内存管理等方面，以及四种主要的部署模式：Standalone、Apache Mesos、Hadoop YARN和Kubernetes。通过本文，读者可以深入了解Spark的工作原理及其在不同环境下的部署方式。 ... [详细]

蜡笔小新 2024-12-14 20:02:45
ip
深入理解JavaScript中的闭包与柯里化

本文详细探讨了JavaScript中的闭包与柯里化技术，这两者是函数式编程的重要组成部分，对提升代码的灵活性和可维护性具有重要作用。 ... [详细]

蜡笔小新 2024-12-14 15:56:15
client
58同城的Elasticsearch应用与平台构建实践

本文由58同城高级架构师于伯伟分享，由陈树昌编辑整理，内容源自DataFunTalk。文章探讨了Elasticsearch作为分布式搜索和分析引擎的应用，特别是在58同城的实施案例，包括集群优化、典型应用实例及自动化平台建设等方面。 ... [详细]

蜡笔小新 2024-12-11 19:31:21
ip
如何通过PHP中的索引属性循环？

我有这种ajax$.ajax({type:"POST",url:"bee_sesi_edit.php&# ... [详细]

蜡笔小新 2024-12-10 17:23:30
spring
利用GitHub热门资源，成功斩获阿里、京东、腾讯三巨头Offer

Spring框架作为Java生态系统中的重要组成部分，因其强大的功能和灵活的扩展性，被广泛应用于各种规模的企业级应用开发中。本文将通过一份在GitHub上获得极高评价的Spring全家桶文档，探讨如何掌握Spring框架及其相关技术，助力职业发展。 ... [详细]

蜡笔小新 2024-12-09 12:55:09
client
Linux 网卡绑定的七种工作模式详解

本文深入探讨了Linux系统中网卡绑定（bonding）的七种工作模式。网卡绑定技术通过将多个物理网卡组合成一个逻辑网卡，实现网络冗余、带宽聚合和负载均衡，在生产环境中广泛应用。文章详细介绍了每种模式的特点、适用场景及配置方法。 ... [详细]

蜡笔小新 2024-12-27 10:18:13
post
如何在ASP.NET中操作没有runat='server'属性的HTML元素

本文探讨了在不使用服务器控件的情况下，如何通过多种方法获取并修改页面中的HTML元素值。除了常见的AJAX方式，还介绍了其他可行的技术方案。 ... [详细]

蜡笔小新 2024-12-27 06:30:46
ip
解读MySQL查询执行计划的详细指南

本文旨在帮助开发者和数据库管理员深入了解如何解读MySQL查询执行计划。通过详细的解析，您将掌握优化查询性能的关键技巧，了解各种访问类型和额外信息的含义。 ... [详细]

蜡笔小新 2024-12-26 20:10:30
client
掌握远程执行Linux脚本和命令的技巧

本文将详细介绍如何利用Python的Paramiko库实现远程执行Linux脚本和命令，帮助读者快速掌握这一实用技能。通过具体的示例和详尽的解释，让初学者也能轻松上手。 ... [详细]

蜡笔小新 2024-12-26 19:47:05
ip
解决Hive启动时权限被拒问题

本文详细分析了Hive在启动过程中遇到的权限拒绝错误，并提供了多种解决方案，包括调整文件权限、用户组设置以及环境变量配置等。 ... [详细]

蜡笔小新 2024-12-26 19:14:29
hash
优化Kafka流状态存储查询的最佳实践

本文探讨了如何优化和正确配置Kafka Streams应用程序以确保准确的状态存储查询。通过调整配置参数和代码逻辑，可以有效解决数据不一致的问题。 ... [详细]

蜡笔小新 2024-12-26 18:17:14
client
Samba服务器配置与CIFS文件共享

本文详细介绍如何使用Samba软件配置CIFS文件共享服务，涵盖安装、配置、权限管理及多用户挂载等关键步骤。通过具体示例和命令行操作，帮助读者快速搭建并优化Samba服务器。 ... [详细]

蜡笔小新 2024-12-26 17:44:08

哎哟不错哦凉皮

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章