【Lucene3.0初窥】索引文件格式(2)：文件结构

作者：半邪书生66_516 | 来源：互联网 | 2023-08-26 14:15

Lucene使用文件扩展名标识不同的索引文件。如.fnm文件存储域Fields名称及其属性，.fdt存储文档各项域数据，.fdx存储文档在fdt中的偏移位置即其索引文件，.frq存储文档

Lucene使用文件扩展名标识不同的索引文件。如.fnm文件存储域Fields名称及其属性，.fdt存储文档各项域数据，.fdx存储文档在fdt中的偏移位置即其索引文件，.frq存储文档中term位置数据，.tii文件存储term字典，.tis文件存储term频率数据，.prx存储term接近度数据，.nrm存储调节因子数据，另外 segments_X文件存储当前最新索引片段的信息，其中X为其最新修改版本，segments.gen存储当前版本即X值。

本系列文章将详细介绍的这些文件的数据存储细节。下面的图描述了一个典型的lucene索引文件列表：

它们的关系图则如下所示：

其中，

Segments是一个比较特殊的结构：

一个索引可以包含多个段，段与段之间是独立的，添加新文档可以生成新的段，不同的段可以合并。

如上图，具有相同前缀文件的属同一个段，图中共两个段 "_0" 和 "_1"。

segments.gen和segments_5是段的元数据文件，也即它们保存了段的属性信息

《索引文件格式》专题用例

在后面详细介绍每个索引文件的时候，都会使用一个例子中的数据进行分析。而这个例子就是《
索引创建(5)：索引数据池及内存数据细节
》中在内存中所建立好的那个倒排索引的例子。这里再次详细说明一下，后面将不再对这个例子做出说明：

(1)待索引文件集合一共四篇文档，分别是

文档名	文档路径	文档内容
lucene 1	E:\实验\content\lucene 1.txt	lucene lucene lucene lucene lucene term .
lucene 2	E:\实验\content\lucene 2.txt	lucene lucene lucene lucene lucene term term.
lucene 3	E:\实验\content\lucene 3.txt	term term term lucene lucene lucene lucene lucene.
lucene 4	E:\实验\content\lucene 4.txt	term

(2)内存源数据组织形式(Document/Fields) 参见《索引创建(1)：IndexWriter索引器》中的索引创建代码：

Java代码

for

(每个文本文件) {

//Lucene的文档结构

Document doc =

new

Document();

//文件名称，可查询，不分词

String fileName=file.getName().substring(

0

,file.getName().indexOf(

"."

));

doc.add(

new

Field(

"name"

,fileName, Field.Store.YES, Field.Index.NOT_ANALYZED));

//文件路径，可查询，不分词

String filePath=file.getPath();

doc.add(

new

Field(

"path"

, filePath, Field.Store.YES, Field.Index.NOT_ANALYZED));

//文件内容，需要检索

doc.add(

new

Field(

"content"

,

new

FileReader(file)));

//使用索引器对Document文档建索引

standardWriter.addDocument(doc);

}

for (每个文本文件) {
//Lucene的文档结构
Document doc = new Document();
//文件名称，可查询，不分词
String fileName=file.getName().substring(0,file.getName().indexOf("."));
doc.add(new Field("name",fileName, Field.Store.YES, Field.Index.NOT_ANALYZED));
//文件路径，可查询，不分词
String filePath=file.getPath();
doc.add(new Field("path", filePath, Field.Store.YES, Field.Index.NOT_ANALYZED));
//文件内容，需要检索
doc.add(new Field("content", new FileReader(file)));
//使用索引器对Document文档建索引
standardWriter.addDocument(doc);
}

这样，其数据源在Lucene的内存结构Document, Field表示如下：

真实文档名	Document对象
lucene 1	doc1
lucene 2	doc2
lucene 3	doc3
lucene 4	doc4

每个document包含的Field信息如下(以doc1举例)：

域	域名	域数据值	是否被索引 (Indexed)	是否被存储 (Stored)
Field1	"name"	"lucene 1"	Y	N
Field2	"path"	"E:\实验\content\lucene 1.txt"	Y	N
Field3	"content"	lucene lucene lucene lucene lucene term .	Y	N

(3)内存索引表的结构如：《索引创建 (5)：索引数据池及内存数据细节》中所述。

【Lucene3.0 初窥】索引文件格式(2)：文件结构总体框架

推荐阅读

stream
纠正网上的错误：自定义一个类叫java.lang.System/String的方法

本文纠正了网上关于自定义一个类叫java.lang.System/String的错误答案，并详细解释了为什么这种方法是错误的。作者指出，虽然双亲委托机制确实可以阻止自定义的System类被加载，但通过自定义一个特殊的类加载器，可以绕过双亲委托机制，达到自定义System类的目的。作者呼吁读者对网上的内容持怀疑态度，并带着问题来阅读文章。 ... [详细]

蜡笔小新 2023-12-11 16:54:20
client
java命令运行

Java在运行已编译完成的类时，是通过java虚拟机来装载和执行的，java虚拟机通过操作系统命令JAVA_HOMEbinjava–option来启 ... [详细]

蜡笔小新 2023-12-12 19:26:55
hash
高程8.2location对象 8.3navigator对象

8.2location对象location对象既是window对象的属性,也是document对象的属性.window.location和document.location引用的是同一个对象. ... [详细]

蜡笔小新 2023-10-15 22:46:02
sum
Hadoop中的MapReduce框架原理、自定义Partitioner步骤、在Job驱动中，设置自定义Partitioner、Partition 分区案例

文章目录13.MapReduce框架原理13.3Shuffle机制13.3.2Partition分区13.3.2.3自定义Partitioner步骤13.3.2.3.1自定义类继承 ... [详细]

蜡笔小新 2023-10-14 11:44:52
main
在类中定义数组时出错 - Error on defining arrays in class

Iamtryingtomakeaclassthatwillreadatextfileofnamesintoanarray,thenreturnthatarra ... [详细]

蜡笔小新 2023-12-14 17:38:12
hash
开发笔记:加密&json&StringIO模块&BytesIO模块

篇首语：本文由编程笔记#小编为大家整理，主要介绍了加密&json&StringIO模块&BytesIO模块相关的知识，希望对你有一定的参考价值。一、加密加密 ... [详细]

蜡笔小新 2023-12-14 15:18:35
hash
XML介绍与使用的概述及标签规则

本文介绍了XML的基本概念和用途，包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则，包括标签的尖括号和合法标识符的组成，标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读，读者可以对XML的基本知识有一个全面的了解。 ... [详细]

蜡笔小新 2023-12-13 17:39:50
format
Kotlin中扩展函数的惯用用法及其合理性

本文讨论了Kotlin中扩展函数的一些惯用用法以及其合理性。作者认为在某些情况下，定义扩展函数没有意义，但官方的编码约定支持这种方式。文章还介绍了在类之外定义扩展函数的具体用法，并讨论了避免使用扩展函数的边缘情况。作者提出了对于扩展函数的合理性的质疑，并给出了自己的反驳。最后，文章强调了在编写Kotlin代码时可以自由地使用扩展函数的重要性。 ... [详细]

蜡笔小新 2023-12-12 19:17:21
stream
java.lang.NoSuchMethodError.getMessage()方法的使用及代码示例

本文整理了Java中java.lang.NoSuchMethodError.getMessage()方法的一些代码示例，展示了NoSuchMethodErr ... [详细]

蜡笔小新 2023-12-09 17:50:11
format
javascript – 如何自动格式化文本框输入

Birthdate ... [详细]

蜡笔小新 2023-10-16 18:10:56
bit
将字符串数字拆分成单个数字_【LeetCode】842. 将数组拆分成斐波那契序列

【LeetCode】842.SplitArrayintoFibonacciSequence将数组拆分成斐波那契序列(Medium)(JAVA)题目描述：Givenas ... [详细]

蜡笔小新 2023-10-15 16:27:02
hash
Java工具类库Hutool介绍及功能概述

本文介绍了Java工具类库Hutool，该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装，并提供了各种Util工具类。同时，还介绍了Hutool的组件，包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码，提高开发效率。 ... [详细]

蜡笔小新 2023-12-14 14:29:36
default
C语言注释工具及快捷键，删除C语言注释工具的实现思路

本文介绍了C语言中注释的两种方式以及注释的作用，提供了删除C语言注释的工具实现思路，并分享了C语言中注释的快捷键操作方法。 ... [详细]

蜡笔小新 2023-12-14 11:22:08
default
使用 Ubuntu 中的 Python 获取浏览器历史记录

使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]

蜡笔小新 2023-12-14 08:57:59
format
SQL 字符串处理函数用法

点此学习更多SQL相关函数与字符串处理函数mysql函数一、简明总结ASCII(char)　　　　　　　　返回字符的ASCII码值BIT_LENGTH(str)　　　　　　返回字 ... [详细]

蜡笔小新 2023-10-15 19:44:39

半邪书生66_516

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章