热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

(廿二)Python:MongoDB存储

大部分情况下爬取的数据特别灵活,不一定只有指定的几个字段数据,这时候就需要将数据存储在非关系型数据库中了,MongoDB是由C语言编写的&

大部分情况下爬取的数据特别灵活,不一定只有指定的几个字段数据,这时候就需要将数据存储在非关系型数据库中了,MongoDB 是由C++语言编写的,是一个基于分布式文件存储的开源数据库系统。在高负载的情况下,添加更多的节点,可以保证服务器性能。MongoDB 旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB 将数据存储为一个文档,数据结构由键值(key=>value)对组成。MongoDB 文档类似于 JSON 对象。字段值可以包含其他文档,数组及文档数组。
这里写图片描述
[来源:菜鸟教程]




连接MongoDB

我们可以使用pymongo库连接数据库,使用pip3 install pymongo安装。

import pymongoclient = pymongo.MongoClient(host='127.0.0.1',port=27017)
#client = pymongo.MongoClient(mongodb://127.0.0.1:27017/)第二中方式连接数据库

我自己的MongoDB没有设置用户名和密码,不需要进行认证。如果你连接MongoDB需要认证请查阅:http://api.mongodb.com/python/current/examples/authentication.html。特别注意mongoDB版本导致的认证机制不同,否则认证失败。


选择数据库

和MySql不同,MySql在连接时需要知道数据库,而mongodb可以不需要,连接成功后指定即可,方式如下:

import pymongoclient = pymongo.MongoClient(host='127.0.0.1',port=27017)#连接数据库
db = client.pymongoTest#指定pymongoTest数据库,也可使用db = client['pymongoTest']

选择集合

选定数据库后我们再选定集合,从而可以将文档内容插入集合中。

import pymongoclient = pymongo.MongoClient(host='127.0.0.1',port=27017)
db = client.pymongoTest#指定pymongoTest数据库
collection = db.person#指定person集合,也可使用collection = db['person']
#指定的集合可以不存在,当插入数据后生成。

数据插入

我们可以使用insert_one()insert_many() 分别插入单条记录和多条记录。

p1 = {'_id':1,'name':'lisi','age':20,'addr':'xian'
}
p2 = {'name':'Jake','age':30,'addr':'beijing'
}
p3 = {'name':'Tom','age':25,'addr':'shanghai'
}
#不写_id会自动创建_id值result = collection.insert_one(p1)
print(type(result))
print(result.inserted_id)
print('=========================================================')
result = collection.insert_many([p2,p3])#插入多个数据用列表表示
print(type(result))
print(result.inserted_ids)

这里写图片描述
insert_one() 方法返回InsertOneResult对象 ,调用其inserted_id属性获取文档的_id 属性。insert_many() 方法返回InsertManyResult对象 ,调用其inserted_ids属性获取文档的_id 属性。注意多了个s


数据查询

我们可以使用find_one()find() 方法进行查询。前者查询单条数据,返回字典类型,后者返回一个生成器对象。
查询name为Jake的数据:

result = collection.find_one({'name':'Jake'})
print(result)

这里写图片描述
根据_id查询:
由于文档中的_id类型是ObjectId类型,所以我们需要导入bson中的ObjectId。

from bson.objectid import ObjectIdresult = collection.find_one({'_id':ObjectId("5b87f3a835b50a3e106cfd83")})
print(result)

这里写图片描述

查询addr为‘xian’的数据:

results = collection.find({'addr':'xian'})
for result in results:print(result)

这里写图片描述

查询age大于20的数据:

results = collection.find({'age':{'$gt':20}})
for result in results:print(result)

这里写图片描述
比较查询的值不是单纯的数值,而是一个字典,key为比较条件(大于或等于,等等),value为具体的数值。诸如$gt 这样的比较符号如下:


  • (>) 大于 - $gt
  • (<) 小于 - $lt
  • (>&#61;) 大于等于 - $gte
  • (<&#61; ) 小于等于 - $lte
  • (!&#61; )不等于 - $ne
  • 在范围内 - $in
  • 不在范围内 - $nin

除了比较符号还要其他符号见mongodb官方文档&#xff1a;https://docs.mongodb.com/manual/reference/operator/query/。


数据更新

我们可以使用update_one()update_many() 方法更新数据。前者更新符合条件的第一条数据&#xff0c;后者将所有符合条件的数据都更新。

condition &#61; {&#39;name&#39;:&#39;Lucy&#39;}
result &#61; collection.update_one(condition,{&#39;$set&#39;:{&#39;age&#39;:30}})#将name为Lucy的数据中的age更新为30
print(result)
print(result.matched_count)#符合条件的条目数
print(result.modified_count)#影响的条目数

这里写图片描述
不使用$set &#xff0c;使用$inc 将age加1。

condition &#61; {&#39;name&#39;:&#39;Lucy&#39;}
result &#61; collection.update_one(condition,{&#39;$inc&#39;:{&#39;age&#39;:1}})
print(result)
print(result.matched_count)
print(result.modified_count)

使用update_many() 更新多条数据&#xff0c;将年龄大于等于18的人age属性加1。

condition &#61; {&#39;age&#39;:{&#39;$gte&#39;:18}}
result &#61; collection.update_many(condition,{&#39;$inc&#39;:{&#39;age&#39;:1}})
print(result)
print(result.matched_count)
print(result.modified_count)

这里写图片描述
符合条件的条目数为5条&#xff0c;影响了5条。


数据删除

我们可以使用delete_one()delete_many() 删除数据&#xff0c;前者删除一条数据&#xff0c;后者删除多条数据。

#删除name为Jake的数据
result &#61; collection.delete_one({&#39;name&#39;:&#39;Jake&#39;})
print(result)
print(result.deleted_count)
#删除age大于20的数据
result &#61; collection.delete_many({&#39;age&#39;:{&#39;$gt&#39;:20}})
print(result)
print(result.deleted_count)

这里写图片描述


其他方法


数据统计

查询结果调用&#96;count()&#96; 方法可以统计出共有多少条数据。

result &#61; collection.find().count()
print(&#39;总条目为&#xff1a;&#39;,result)

这里写图片描述


数据排序

查询结果调用&#96;sort()&#96; 方法可以将数据按照某一字段设置升序或降序排序。

result &#61; collection.find().sort(&#39;age&#39;,pymongo.ASCENDING)#按照age升序排序
for item in result:print(item)

这里写图片描述


偏移

有时候我们不想取前几条数据&#xff0c;我们可以使用&#96;skip()&#96; 设置偏移&#xff0c;忽略前面的数据。

result &#61; collection.find().sort(&#39;age&#39;,pymongo.ASCENDING).skip(2)#偏移量为2&#xff0c;获取第三条数据后的数据
for item in result:print(item)

设置偏移前&#xff1a;
这里写图片描述
设置偏移后&#xff1a;
这里写图片描述

我们还可以使用limit() 限制返回结果的数目。

result &#61; collection.find().sort(&#39;age&#39;,pymongo.ASCENDING).limit(2)#只获取2条数据
for item in result:print(item)

限制前&#xff1a;
这里写图片描述
限制后&#xff1a;
这里写图片描述


推荐阅读
  • 实践指南:使用Express、Create React App与MongoDB搭建React开发环境
    本文详细介绍了如何利用Express、Create React App和MongoDB构建一个高效的React应用开发环境,旨在为开发者提供一套完整的解决方案,包括环境搭建、数据模拟及前后端交互。 ... [详细]
  • Requests库的基本使用方法
    本文介绍了Python中Requests库的基础用法,包括如何安装、GET和POST请求的实现、如何处理Cookies和Headers,以及如何解析JSON响应。相比urllib库,Requests库提供了更为简洁高效的接口来处理HTTP请求。 ... [详细]
  • 近期尝试从www.hub.sciverse.com网站通过编程手段获取数据时遇到问题,起初尝试使用WebBrowser控件进行数据抓取,但发现使用GET方法翻页时,返回的HTML代码始终相同。进一步探究后了解到,该网站的数据是通过Ajax异步加载的,可通过HTTP查看详细的JSON响应。 ... [详细]
  • Web动态服务器Python基本实现
    Web动态服务器Python基本实现 ... [详细]
  • 在OpenCV 3.1.0中实现SIFT与SURF特征检测
    本文介绍如何在OpenCV 3.1.0版本中通过Python 2.7环境使用SIFT和SURF算法进行图像特征点检测。由于这些高级功能在OpenCV 3.0.0及更高版本中被移至额外的contrib模块,因此需要特别处理才能正常使用。 ... [详细]
  • Jupyter Notebook多语言环境搭建指南
    本文详细介绍了如何在Linux环境下为Jupyter Notebook配置Python、Python3、R及Go四种编程语言的环境,包括必要的软件安装和配置步骤。 ... [详细]
  • 本文介绍了GitHub上的一些Python开源项目,特别是IM(即时通讯)技术的应用。通过Sealtalk项目,探讨了如何利用开源SDK提升开发效率。 ... [详细]
  • 本文深入探讨了NoSQL数据库的四大主要类型:键值对存储、文档存储、列式存储和图数据库。NoSQL(Not Only SQL)是指一系列非关系型数据库系统,它们不依赖于固定模式的数据存储方式,能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构;文档存储支持复杂的数据对象;列式存储优化了大数据量的读写性能;而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景,本文将详细分析它们的特点及应用实例。 ... [详细]
  • 本指南介绍了 `requests` 库的基本使用方法,详细解释了其七个主要函数。其中,`requests.request()` 是构建请求的基础方法,支持其他高级功能的实现。此外,我们还重点介绍了如何使用 `requests.get()` 方法来获取 HTML 网页内容,这是进行网页数据抓取和解析的重要步骤。通过这些基础方法,读者可以轻松上手并掌握网页数据抓取的核心技巧。 ... [详细]
  • 本文探讨了一种统一的语义数据模型,旨在支持物联网、建筑及企业环境下的数据转换。该模型强调简洁性和可扩展性,以促进不同行业间的插件化和互操作性。对于智能硬件开发者而言,这一模型提供了重要的参考价值。 ... [详细]
  • 电商高并发解决方案详解
    本文以京东为例,详细探讨了电商中常见的高并发解决方案,包括多级缓存和Nginx限流技术,旨在帮助读者更好地理解和应用这些技术。 ... [详细]
  • MongoDB核心概念详解
    本文介绍了NoSQL数据库的概念及其应用场景,重点解析了MongoDB的基本特性、数据结构以及常用操作。MongoDB是一个高性能、高可用且易于扩展的文档数据库系统。 ... [详细]
  • 在CentOS 7环境中安装配置Redis及使用Redis Desktop Manager连接时的注意事项与技巧
    在 CentOS 7 环境中安装和配置 Redis 时,需要注意一些关键步骤和最佳实践。本文详细介绍了从安装 Redis 到配置其基本参数的全过程,并提供了使用 Redis Desktop Manager 连接 Redis 服务器的技巧和注意事项。此外,还探讨了如何优化性能和确保数据安全,帮助用户在生产环境中高效地管理和使用 Redis。 ... [详细]
  • ### 优化后的摘要本学习指南旨在帮助读者全面掌握 Bootstrap 前端框架的核心知识点与实战技巧。内容涵盖基础入门、核心功能和高级应用。第一章通过一个简单的“Hello World”示例,介绍 Bootstrap 的基本用法和快速上手方法。第二章深入探讨 Bootstrap 与 JSP 集成的细节,揭示两者结合的优势和应用场景。第三章则进一步讲解 Bootstrap 的高级特性,如响应式设计和组件定制,为开发者提供全方位的技术支持。 ... [详细]
  • V8不仅是一款著名的八缸发动机,广泛应用于道奇Charger、宾利Continental GT和BossHoss摩托车中。自2008年以来,作为Chromium项目的一部分,V8 JavaScript引擎在性能优化和技术创新方面取得了显著进展。该引擎通过先进的编译技术和高效的垃圾回收机制,显著提升了JavaScript的执行效率,为现代Web应用提供了强大的支持。持续的优化和创新使得V8在处理复杂计算和大规模数据时表现更加出色,成为众多开发者和企业的首选。 ... [详细]
author-avatar
世界第一1945_307
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有