Lucene中的合并因子mergeFactor

作者：欠你的情意 | 来源：互联网 | 2023-05-19 16:00

mergeFactor是用来决定segment该如何被addDocument()方法进行合并的。当mergeFactor取比较小的值时，索引时所使用的内存较少而且搜素未优化的速度会比较快。因此，

mergeFactor
是用来决定segment该如何被addDocument()方法进行合并的。
当mergeFactor取比较小的值时，索引时所使用的内存较少
而且搜素未优化的速度会比较快。因此，mergeFactor取值较大时(比如大于10)，
适合于批量的索引建立，而当搜索未优化索引的速度会更快，但是索引建立的速度会比较慢。
当mergeFactor取较大的值时，建立索引的速度会比较快。因此，mergeFactor取值较大时（比如大于10）
适合于这些批量的索引建立，而当mergeFactor取较小的值时，适合于间歇性的向索引加入文档。
这个合并因子在Lucene的索引建立过程中起到很重要的作用：
（1）、将mergeFactor的因子设为10，那么每向索引添加10个Document时，就会有一个新的segment在磁盘上建立起来。
（2）、当第10个这样的segment建立好后，它们会被合并成为一个具有100个Document的新segment。
（3）、接下来，每个100个Document又会创建一个新的segment，当第999个文档被加入索引时，
此时磁盘上应该已经有了9个segment，其中每个都有100个Document，而第901个到999个Document此时正在内存中，
还未被写入磁盘中。
（4）、倘若此时，再向索引中加入一个Document，那么，前面9个segment就会和这第10个
新创建的segment进行合并，成为一个具有1000个Documentde segment。过程依次类推。

//为了防止segment中文档数量会增长的快，所以用maxMergementDocs限制最大的存储在segment的文档数。
//minMergementDocs又叫做maxBufferedDocs指的是每次将索引被刷到磁盘的时候，内存的数量

推荐阅读

php
Elasticsearch基础概念之基本原理

ES基本原理名词解释In-memorybuffer:ES内存缓冲区，新建的document写入的地方document：索引和搜索的 ... [详细]

蜡笔小新 2023-10-12 17:10:17
php
Elasticsearch 写入与查询的底层机制解析

本文深入解析了Elasticsearch写入与查询的底层机制。在数据写入过程中，首先会将数据暂存至内存缓冲区，在此阶段数据尚不可被搜索。同时，为了保证数据的持久性和可靠性，系统会将这些数据同步记录到事务日志（translog）中。当内存缓冲区接近满载时，系统会触发刷新操作，将缓冲区中的数据写入到磁盘上的段文件中，从而使其可被搜索。此外，文章还探讨了查询过程中涉及的索引分片、倒排索引等关键技术，为读者提供了全面的技术理解。 ... [详细]

蜡笔小新 2024-11-04 19:00:33
input
如何在MySQL中有效运用EXPLAIN命令进行查询优化

本文详细介绍了在MySQL中如何高效利用EXPLAIN命令进行查询优化。通过实例解析和步骤说明，文章旨在帮助读者深入理解EXPLAIN命令的工作原理及其在性能调优中的应用，内容通俗易懂且结构清晰，适合各水平的数据库管理员和技术人员参考学习。 ... [详细]

蜡笔小新 2024-11-10 15:18:39
copy
掌握 Git 与 SVN 的高效使用技巧，轻松应对版本控制挑战

本文深入探讨了 Git 与 SVN 的高效使用技巧，旨在帮助开发者轻松应对版本控制中的各种挑战。通过详细解析两种工具的核心功能与最佳实践，读者将能够更好地掌握版本管理的精髓，提高开发效率。 ... [详细]

蜡笔小新 2024-11-06 11:05:37
go
MySQL索引详解及其优化策略

本文详细解析了MySQL索引的概念、数据结构及管理方法，并探讨了如何正确使用索引以提升查询性能。文章还深入讲解了联合索引与覆盖索引的应用场景，以及它们在优化数据库性能中的重要作用。此外，通过实例分析，进一步阐述了索引在高读写比系统中的必要性和优势。 ... [详细]

蜡笔小新 2024-11-05 10:36:17
ip
UVA11987: 并查集支持删除操作的实现与应用

在处理UVA11987问题时，关键在于实现并查集结构以支持删除操作。特别地，当需要删除某个节点时，如果该节点不是根节点，则处理相对简单；然而，若删除的是根节点，则需要进行额外的处理来维护集合的连通性。本文将详细介绍如何通过优化并查集算法，确保在删除根节点时仍能高效地维护数据结构的完整性和查询效率。 ... [详细]

蜡笔小新 2024-11-01 19:33:35
go
MySQL：不仅仅是数据库那么简单

MySQL不仅是一款高效、可靠的数据库管理系统，它还具备丰富的功能和扩展性，支持多种存储引擎，适用于各种应用场景。从简单的网站开发到复杂的企业级应用，MySQL都能提供强大的数据管理和优化能力，满足不同用户的需求。其开源特性也促进了社区的活跃发展，为技术进步提供了持续动力。 ... [详细]

蜡笔小新 2024-10-30 14:11:13
ip
利用Redis HyperLogLog高效统计微博日活跃和月活跃用户数

本文探讨了如何利用Redis的HyperLogLog数据结构高效地统计微博平台的日活跃用户（DAU）和月活跃用户（MAU）数量。通过HyperLogLog的高精度和低内存消耗特性，可以实现对大规模用户数据的实时统计与分析，为平台运营提供有力的数据支持。 ... [详细]

蜡笔小新 2024-10-29 10:15:22
go
倒排列表压缩算法汇总——分区EliasFano编码貌似是最牛叉的啊！

来看看倒排索引压缩。压缩是拿CPU换IO的最重要手段之一，不论索引是放在硬盘还是内存中。索引压缩的算法有几十种，跟文本压缩不同，索引压缩算法不仅仅需要考虑压缩率，更要考虑压缩和解压 ... [详细]

蜡笔小新 2024-10-17 12:32:49
go
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
ip
部署solr建立nutch索引

2019独角兽企业重金招聘Python工程师标准接着上篇nutch1.4的部署应用，我们来部署一下solr，solr是对lucene进行了封装的企 ... [详细]

蜡笔小新 2023-10-16 18:06:09
input
camel_使用Camel在来自不同来源的Solr中索引数据

camelApacheSolr是建立在Lucene之上的“流行的，快速的开源企业搜索平台”。为了进行搜索(并查找结果)，通常需要从不同的源(例如内容管理 ... [详细]

蜡笔小新 2023-10-15 11:20:39
ip
开发笔记:使用JavaScript解决网页图片拉伸问题

篇首语：本文由编程笔记#小编为大家整理，主要介绍了使用JavaScript解决网页图片拉伸问题相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-13 02:59:58
ip
es的分布式原理？es是如何实现分布式的？

Elasticsearch设计的理念是分布式搜索引擎，底层其实是基于lucene。核心思 ... [详细]

蜡笔小新 2023-10-12 18:29:23
ip
mysql+全文检索设计,基于sphinx+mysql全文检索架构设计.doc

基于sphinxmysql全文检索架构设计.doc还剩2页未读，继续阅读下载文档到电脑，马上远离加班熬夜！亲，喜欢就下载吧& ... [详细]

蜡笔小新 2023-10-12 12:34:51

欠你的情意

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章