当前位置: 开发笔记 > 编程语言 > 正文

json最大长度限制_MongoDB参数限制和阀值

作者：飘移zj_114 | 来源：互联网 | 2023-08-17 16:39

今天搜索sparkmongo的资料，意外发现了MongoDB的一些知识，这些都是之前没有接触过的，所以专门记录下。一、BSON文档1、BS

今天搜索spark mongo的资料&＃xff0c;意外发现了MongoDB的一些知识&＃xff0c;这些都是之前没有接触过的&＃xff0c;所以专门记录下。

一、BSON文档

1、BSON文档尺寸&＃xff1a;一个document文档最大尺寸为16M&＃xff1b;大于16M的文档需要存储在GridFS中。

2、文档内嵌深度&＃xff1a;BSON文档的结构(tree)深度最大为100。

二、Namespaces

1、collection命名空间&＃xff1a;.&＃xff0c;最大长度为120字节。这也限定了database和collection的名字不能太长。

2、命名空间的个数&＃xff1a;对于MMAPV1引擎&＃xff0c;个数最大为大约为24000个&＃xff0c;每个collection以及index都是一个namespace&＃xff1b;对于wiredTiger引擎则没有这个限制。

3、namespace文件的大小&＃xff1a;对于MMAPV1引擎而言&＃xff0c;默认大小为16M&＃xff0c;可以通过在配置文件中修改。wiredTiger不受此限制。

三、indexes

1、index key&＃xff1a;每条索引的key不得超过1024个字节&＃xff0c;如果index key的长度超过此值&＃xff0c;将会导致write操作失败。

2、每个collection中索引的个数不得超过64个。

3、索引名称&＃xff1a;我们可以为index设定名称&＃xff0c;最终全名为..$&＃xff0c;最长不得超过128个字节。默认情况下为filed名称与index类型的组合&＃xff0c;我们可以在创建索引时显式的指定index名字&＃xff0c;参见createIndex()方法。

4、组合索引最多能包含31个field。

四、Data

1、Capped Collection&＃xff1a;如果你在创建“Capped”类型的collection时指定了文档的最大个数&＃xff0c;那么此个数不能超过2的32次方&＃xff0c;如果没有指定最大个数&＃xff0c;则没有限制。

2、Database Size&＃xff1a;MMAPV1引擎而言&＃xff0c;每个database不得持有超过16000个数据文件&＃xff0c;即单个database的总数据量最大为32TB&＃xff0c;可以通过设置“smallFiles”来限定到8TB。

3、Data Size&＃xff1a;对于MMAVPV1引擎而言&＃xff0c;单个mongod不能管理超过最大虚拟内存地址空间的数据集&＃xff0c;比如linux(64位)下每个mongod实例最多可以维护64T数据。wiredTiger引擎没有此限制。

4、每个Database中collection个数&＃xff1a;对于MMAPV1引擎而然&＃xff0c;每个database所能持有的collections个数取决于namespace文件大小(用来保存namespace)以及每个collection中indexes的个数&＃xff0c;最终总尺寸不超过namespace文件的大小(16M)。wiredTiger引擎不受到此限制。

五、Replica Sets

1、每个replica set中最多支持50个members。

2、replica set中最多可以有7个voting members。(投票者)

3、如果没有显式的指定oplog的尺寸&＃xff0c;其最大不会超过50G。

六、Sharded Clusters

1、group聚合函数&＃xff0c;在sharding模式下不可用。请使用mapreduce或者aggregate方法。

2、Coverd Queries&＃xff1a;即查询条件中的Fields必须是index的一部分&＃xff0c;且返回结果只包含index中的fields&＃xff1b;对于sharding集群&＃xff0c;如果query中不包含shard key&＃xff0c;索引则无法进行覆盖。虽然_id不是“shard key”&＃xff0c;但是如果查询条件中只包含_id&＃xff0c;且返回的结果中也只需要_id字段值&＃xff0c;则可以使用覆盖查询&＃xff0c;不过这个查询似乎并没有什么意义(除非是检测此_id的document是否存在)。

3、对于已经存有数据的collections开启sharding(原来非sharding)&＃xff0c;则其最大数据不得超过256G。当collection被sharding之后&＃xff0c;那么它可以存储任意多的数据。

4、对于sharded collection&＃xff0c;update、remove对单条数据操作(操作选项为multi:false或者justOne)&＃xff0c;必须指定shard key或者_id字段&＃xff1b;否则将会抛出error。

5、唯一索引&＃xff1a;shards之间不支持唯一索引&＃xff0c;除非这个“shard key”是唯一索引的最左前缀。比如collection的shard key为{"zipcode":1,"name": 1}&＃xff0c;如果你想对collection创建唯一索引&＃xff0c;那么唯一索引必须将zipcode和name作为索引的最左前缀&＃xff0c;比如&＃xff1a;collection.createIndex({"zipcode":1,"name":1,"company":1},{unique:true})。

6、在chunk迁移时允许的最大文档个数&＃xff1a;如果一个chunk中documents的个数超过250000(默认chunk大小为64M)时&＃xff0c;或者document个数大于 1.3 *(chunk最大尺寸(有配置参数决定)/ document平均尺寸)&＃xff0c;此chunk将无法被“move”(无论是balancer还是人工干预)&＃xff0c;必须等待split之后才能被move。

七、shard key

shard key的长度不得超过512个字节。
“shard key索引”可以为基于shard key的正序索引&＃xff0c;或者以shard key开头的组合索引。shard key索引不能是multikey索引(基于数组的索引)、text索引或者geo索引。
Shard key是不可变的&＃xff0c;无论何时都不能修改document中的shard key值。如果需要变更shard key&＃xff0c;则需要手动清洗数据&＃xff0c;即全量dump原始数据&＃xff0c;然后修改并保存在新的collection中。
单调递增(递减)的shard key会限制insert的吞吐量&＃xff1b;如果_id是shard key&＃xff0c;需要知道_id是ObjectId()生成&＃xff0c;它也是自增值。对于单调递增的shard key&＃xff0c;collection上的所有insert操作都会在一个shard节点上进行&＃xff0c;那么此shard将会承载cluster的全部insert操作&＃xff0c;因为单个shard节点的资源有限&＃xff0c;因此整个cluster的insert量会因此受限。如果cluster主要是read、update操作&＃xff0c;将不会有这方面的限制。为了避免这个问题&＃xff0c;可以考虑使用“hashed shard key”或者选择一个非单调递增key作为shard key。(rang shard key 和hashed shard key各有优缺点&＃xff0c;需要根据query的情况而定)。

八、Operations

如果mongodb不能使用索引排序来获取documents&＃xff0c;那么参与排序的documents尺寸需要小于32M。
Aggregation Pileline操作。Pipeline stages限制在100M内存&＃xff0c;如果stage超过此限制将会发生错误&＃xff0c;为了能处理较大的数据集&＃xff0c;请开启“allowDiskUse”选项&＃xff0c;即允许pipeline stages将额外的数据写入临时文件。

九、命名规则

database的命名区分大小写。
database名称中不要包含&＃xff1a;/ \.&＃39;&＃39;$*<>:|?
database名称长度不能超过64个字符。
collection名称可以以“_”或者字母字符开头&＃xff0c;但是不能包含"$"符号&＃xff0c;不能为空字符或者null&＃xff0c;不能以“system.”开头&＃xff0c;因为这是系统保留字。
document字段名不能包含“.”或者null&＃xff0c;且不能以“$”开头&＃xff0c;因为$是一个“引用符号”。

最后记录下json嵌套中含有列表的查询方法&＃xff0c;样例数据&＃xff1a;

{ "_id" : ObjectId("5c6cc376a589c200018f7312"), "id" : "9472", "data" : { "name" : "测试", "publish_date" : "2009-05-15", "authors" : [ { "author_id" : 3053, "author_name" : "测试数据" } ], } }

我要查询authors中的author_id&＃xff0c;query可以这样写&＃xff1a;

db.getCollection().find({&＃39;data.authors.0.author_id&＃39;: 3053})

用0来代表第一个索引&＃xff0c;点代表嵌套结构。但是spark mongo中是不能这样导入的&＃xff0c;需要使用别的方法。

推荐阅读

go
您的数据库配置是否安全？DBSAT工具助您一臂之力！

本文探讨了Oracle提供的免费工具DBSAT，该工具能够有效协助用户检测和优化数据库配置的安全性。通过全面的分析和报告，DBSAT帮助用户识别潜在的安全漏洞，并提供针对性的改进建议，确保数据库系统的稳定性和安全性。 ... [详细]

蜡笔小新 2024-11-11 14:44:47
post
MySQL Decimal 类型的最大值解析及其在数据处理中的应用艺术

在关系型数据库中，表的设计与SQL语句的编写对性能的影响至关重要，甚至可占到90%以上。本文将重点探讨MySQL中Decimal类型的最大值及其在数据处理中的应用技巧，通过实例分析和优化建议，帮助读者深入理解并掌握这一重要知识点。 ... [详细]

蜡笔小新 2024-11-11 19:36:19
uri
Bootstrap 学习指南：全面掌握前端框架的核心知识点与实战技巧

### 优化后的摘要本学习指南旨在帮助读者全面掌握 Bootstrap 前端框架的核心知识点与实战技巧。内容涵盖基础入门、核心功能和高级应用。第一章通过一个简单的“Hello World”示例，介绍 Bootstrap 的基本用法和快速上手方法。第二章深入探讨 Bootstrap 与 JSP 集成的细节，揭示两者结合的优势和应用场景。第三章则进一步讲解 Bootstrap 的高级特性，如响应式设计和组件定制，为开发者提供全方位的技术支持。 ... [详细]

蜡笔小新 2024-11-09 16:58:21
uri
深入解析NoSQL数据库：键值对、文档、列式存储与图数据库的应用与特点

本文深入探讨了NoSQL数据库的四大主要类型：键值对存储、文档存储、列式存储和图数据库。NoSQL（Not Only SQL）是指一系列非关系型数据库系统，它们不依赖于固定模式的数据存储方式，能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构；文档存储支持复杂的数据对象；列式存储优化了大数据量的读写性能；而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景，本文将详细分析它们的特点及应用实例。 ... [详细]

蜡笔小新 2024-11-09 14:47:28
javascript
木偶评估函数拒绝将JSHandles和ElementHandles用作参数

在处理木偶评估函数时，我发现可以顺利传递本机对象（如字符串、列表和数字），但每当尝试将JSHandle或ElementHandle作为参数传递时，函数会拒绝接受这些对象。这可能是由于这些句柄对象的特殊性质导致的，建议在使用时进行适当的转换或封装，以确保函数能够正确处理。 ... [详细]

蜡笔小新 2024-11-07 18:34:55
javascript
如何在压缩的.gz文件中高效查找特定字符串？ - Efficiently searching for specific strings within compressed .gz files

本文探讨了在不解压的情况下，如何高效地从包含文本文件的.gz压缩文件中查找特定字符串的方法。通过利用特定的工具和技术，可以在保持文件压缩状态的同时，快速定位和检索所需信息，提高处理大规模数据集时的效率和性能。 ... [详细]

蜡笔小新 2024-11-02 19:08:26
install
在Ubuntu 20.04 Linux系统中部署Git的详细步骤与最佳实践

在Ubuntu 20.04 Linux系统中部署Git时，首先确保您的操作系统版本正确，并已以具备sudo权限的用户身份登录。推荐使用APT软件包管理器进行安装，这是最简便且可靠的方法。此外，遵循最佳实践，如定期更新Git版本和配置全局设置，可以进一步提升使用体验和安全性。 ... [详细]

蜡笔小新 2024-11-02 16:30:53
go
如何在Spark数据排序过程中有效避免内存溢出（OOM）问题

本文深入探讨了在使用Spark进行数据排序时如何有效预防内存溢出（OOM）问题。通过具体的代码示例，详细阐述了优化策略和技术手段，为读者在实际工作中遇到类似问题提供了宝贵的参考和指导。 ... [详细]

蜡笔小新 2024-11-01 16:55:53
install
window下的python安装插件

window下的python安装插件,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2024-11-12 15:14:05
install
如何在Linux系统中实现Windows风格的桌面环境：将Ubuntu 18.04定制为Windows主题界面

如果您是从Windows转到Linux系统的用户，可能会觉得默认的Ubuntu主题和桌面环境缺乏吸引力和可定制性。尤其是对于习惯了Windows风格的任务栏和主题的用户，Ubuntu 18.04的橙色主题可能显得过于简洁。为了提升用户体验，可以通过安装特定的桌面环境和主题来实现类似Windows的界面效果。本文将详细介绍如何在Ubuntu 18.04中配置和定制桌面环境，使其具备Windows风格的外观和功能。 ... [详细]

蜡笔小新 2024-11-07 19:34:08
install
FreeTextBoxFCKeditor文本编辑组件官方下载链接

FCKeditor 是一款功能强大的文本编辑组件，适用于各种 Web 应用程序。官方提供的下载链接如下：https://jaist.dl.sourceforge.net/sourceforge/fckeditor/FCKeditor_2.4.2.zip此版本为 2.4.2，用户可以通过该链接直接下载安装包，以便在项目中集成使用。FCKeditor 支持多种浏览器，并提供了丰富的配置选项和插件，能够满足不同开发需求。 ... [详细]

蜡笔小新 2024-11-07 16:45:31
jar
Netty框架中运用Protobuf实现高效通信协议

在Netty框架中，通过引入Protobuf来实现高效的通信协议。为了使用Protobuf，需要先准备好环境，包括下载并安装Protobuf的代码生成器`protoc`以及相应的源码包。具体资源可从官方下载页面获取，确保版本兼容性以充分发挥其性能优势。此外，配置好开发环境后，可以通过定义`.proto`文件来自动生成Java类，从而简化数据序列化和反序列化的操作，提高通信效率。 ... [详细]

蜡笔小新 2024-11-05 17:06:20
jar
GridView 动态管理行：添加与删除行记录而不影响数据库数据

在处理 GridView 中的行记录时，有时需要动态地添加或删除行，而无需对数据库中的实际数据进行任何更改。本文介绍了如何实现这一功能，确保操作仅限于前端展示层面，而不影响后端数据库的完整性。通过这种方法，用户可以在不修改数据库记录的情况下，灵活地管理 GridView 中的数据展示。 ... [详细]

蜡笔小新 2024-11-02 12:20:46
header
优化后的标题：数据网格视图（DataGridView）在应用程序中的高效应用与优化策略

在应用程序中，数据网格视图（DataGridView）的高效应用与优化策略至关重要。本文探讨了多种优化方法，包括但不限于：1）通过合理的数据绑定提升性能；2）利用虚拟模式处理大量数据，减少内存占用；3）在格式化单元格内容时，推荐使用CellParsing事件，以确保数据的准确性和一致性。此外，还介绍了如何通过自定义列类型和优化渲染过程，进一步提升用户体验和系统响应速度。 ... [详细]

蜡笔小新 2024-11-01 16:14:23
post
如何在Oracle ASM_Diskgroup中重命名现有磁盘

如何在Oracle ASM_Diskgroup中重命名现有磁盘 ... [详细]

蜡笔小新 2024-11-01 12:48:31

飘移zj_114

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章