Lucene源代码剖析四索引文件结构(3)

作者：diy2099_d94639 | 来源：互联网 | 2023-06-24 19:47

3.3每个Segment包含的文件剩下的文件（remainingfiles）都是per-segment（每个片断文件），因此（thus）都用后缀来定义（defined

3.3 每个Segment包含的文件

剩下的文件（remaining files）都是per-segment（每个片断文件），因此（thus）都用后缀来定义（defined by suffix）。

3.3.1 Fields域数据文件

3.3.1.1 Field信息（.fnm）

Field的名字都存储在Field信息文件中，后缀是.fnm。

文件	包含的项	数目	类型	版本	描述
FieldsInfo(.fnm)	FieldsCount	1	VInt
	FieldName	FieldsCount	String
	FieldBits	FieldsCount	Byte		最低阶的bit位（low-order bit）值为1表示是被索引的Fields，0表示非索引的Fields。
					第二个最低阶的bit位（second lowest-order bit）值为1表示该Field有term向量存储（term vectors stored），0表示该field没有term向量。
				>=1.9	如果第三个最低阶的bit位（third lowest-order bit）设置（0×04），term的位置（term positions）将和term向量一起被存储（stored with term vectors）。
				>=1.9	如果第四个最低阶的bit位（fourth lowest-order bit）设置（0×08），term的偏移（term offsets）将和term向量一起被存储（stored with term vectors）。
				>=1.9	如果第五个最低阶的bit位（fifth lowest-order bit）设置（0×10），norms将对索引的field忽略掉（norms are omitted for the indexed field）。
				>=1.9	如果第六个最低阶的bit位（sixth lowest-order bit）设置（0×20），payloads将为索引的field存储（payloads are stored for the indexed field）。

注明：payloads概念：

词条载荷（payloads）――允许用户将任意二进制数据和索引中的任意词条（term）相关联。

词条载荷是一个允许信息在索引中按逐词条储存的新特性。例如，当索引Web页面时，储存某个关键词的额外信息可能会很有用，例如这个关键词关联的URL或者经过文字分析后得出的权重系数。在更高级的应用中，为了突出语句中的名次成分相对于其它成分的重要性，储存语句中这个关键词出现的部分可能会很有帮助。我今年在ApacheCon Europe会议上的演讲中就有几张讲述词条载荷的幻灯片，感兴趣的读者可以去看看。

Fields将使用它们在这个文件中的顺序来编号（fields are numbered by their order in this file）。需要注意的是，就像文档编号（document numbers）一样，field编号（field numbers）与片断是相关的（are segment relative）。结构如下图所示：

3.3.1.2 存储的Field（.fdx和.fdt）

存储的fields（stored fields）通过两个文件来呈现（represented by two files），即field索引文件（.fdx）和field数据文件（.fdt）。

文件	包含的项	父项	数目	类型	版本	描述
Fields Index(.fdx) 对每个文档来说，存储指向它的fields数据的指针（pointer）	FieldValuesPosition		SegSize	UInt64		用于找详细文档（a particular document）的所有fields的field数据文件中的位置（position），因为它包含的（contains）是固定长度的数据（fixed-length data），这个文件可以很容易地进行随机访问（randomly accessed）。
Fields Index(.fdx) 对每个文档来说，存储指向它的fields数据的指针（pointer）	FieldValuesPosition		SegSize	UInt64		文档n的field数据的位置是在该文件中n*8的位置中（UInt64类型）。
Fields Data（.fdt）这个文件存储每个文档的field数据	DocFieldData		SegSize
	FieldCount	DocFieldData	1	VInt
	FieldNum	DocFieldData	FieldCount	VInt
	Bits	DocFieldData	FieldCount	Byte	<=1.4	只有最低阶的bit位（low-order bits of Bits）被使用，值为1表示tokenized field（分解过的field），0表示non-tokenized field。
				Byte	>=1.9	最低阶的bit位表示tokenized field
					>=1.9	第二个bit（second bit）用于表示该field存储binary数据。
					>=1.9	第三个bit（third bit）表示该field的压缩选项被开启（field with compression enabled），如果压缩选项开启，采用的压缩算法（algorithm）是ZLIB
	Value	DocFieldData	FieldCount	String	<=1.4
				String \| BinaryValue	>=1.9	依赖于Bits的值
				BinaryValue	>=1.9	ValueSize,^ValueSize
	ValueSize	Value	1	VInt	>=1.9

结构如下图所示：

3.3.2 存储的term字典（.tii和.tis）

Term字典使用如下两种文件存储，第一种是存储term信息（TermInfoFile）的文件，即.tis文件，格式如下：

版本	包含的项	数目	类型	描述
全部版本	TIVersion	1	UInt32	记录该文件的版本，1.4版本中为-2
	TermCount	1	UInt64
	IndexInterval	1	UInt32
	SkipInterval	1	UInt32
	MaxSkipLevels	1	UInt32
	TermInfos	1	TermInfo…
	TermInfos->TermInfo	TermCount	TermInfo
	TermInfo->Term	TermCount	Term
	Term->PrefixLength	TermCount	VInt	Term文本的前缀可以共享，该项的值表示根据前一个term的文本来初始化的字符串前缀长度，前一个term必须已经预设成后缀文本以便构成该term的文本。比如，如果前一个term为“bone”，而当前term为“boy”，则该PrefixLength值为2，suffix值为“y”
	Term->Suffix	TermCount	String	如上
	Term->FieldNum	TermCount	VInt	用来确定term的field，它们存储在.fdt文件中。
	TermInfo->DocFreq	TermCount	VInt	包含该term的文档数目
	TermInfo->FreqDelta	TermCount	VInt	用来确定包含在.frq文件中该term的TermFreqs的位置。特别指出，它是该term的数据在文件中位置与前一个term的位置的差值，当为第一个term时，该值为0
	TermInfo->ProxDelta	TermCount	VInt	用来确定包含在.prx文件中该term的TermPositions的位置。特别指出，它是该term的数据在文件中的位置与前一个term的位置地差值，当为第一个term时，该值为0。如果fields的omitTF设置为true，该值也为0，因为prox信息没有被存储。
	TermInfo->SkipDelta	TermCount	VInt	用来确定包含在.frq文件中该term的SkipData的位置。特别指出，它是TermFreqs之后即SkipData开始的字节数目，换句话说，它是TermFreq的长度。SkipDelta只有在DocFreq不比SkipInteval小的情况下才会存储。

TermInfoFile文件按照Term来排序，排序方法首先按照Term的field名称（按照UTF-16字符编码）排序，然后按照Term的Text字符串（UTF-16编码）排序。结构如下图所示：

另一种是存储term信息的索引文件，即.tii文件，该文件包含.tis文件中每一个IndexInterval的值，与它在.tis中的位置一起被存储，这被设计来完全地读进内存中（read entirely into memory），以便用来提供随机访问.tis文件。该文件的结构与.tis文件非常相似，只是添加了一项数据，即IndexDelta。格式如下

版本	包含的项	数目	类型	描述
全部版本	TIVersion	1	UInt32	同tis
	IndexTermCount	1	UInt64	同tis
	IndexInterval	1	UInt32	同tis
	SkipInterval	1	UInt32	是TermDocs存储在skip表中的分数（fraction），用来加速（accelerable）TermDocs.skipTo(int)的调用。在更小的索引中获得更大的结果值（larger values result），将获得更高的速度，但却更小开销？（fewer accelerable cases while smaller values result in bigger indexes, less acceleration (in case of a small value for MaxSkipLevels)
	MaxSkipLevels	1	UInt32	是.frq文件中为每一个term存储的skip levels的最大数目，A low value results in smaller indexes but less acceleration, a larger value results in slighly larger indexes but greater acceleration.参见.frq文件格式中关于skip levels的详细介绍。
	TermIndices	IndexTermCount	TermIndice	同tis
	TermIndice->TermInfo	IndexTermCount	TermInfo	同tis
	TermIndice->IndexDelta	IndexTermCount	VLong	用来确定该Term的TermInfo在.tis文件中的位置，特别指出，它是该term的数据的位置与前一个term位置的差值。

结构如下图所示：

推荐阅读

io
Go Cobra命令行工具入门教程

本文介绍了Go语言实现的命令行工具Cobra的基本概念、安装方法和入门实践。Cobra被广泛应用于各种项目中，如Kubernetes、Hugo和Github CLI等。通过使用Cobra，我们可以快速创建命令行工具，适用于写测试脚本和各种服务的Admin CLI。文章还通过一个简单的demo演示了Cobra的使用方法。 ... [详细]

蜡笔小新 2023-12-12 20:02:41
io
Nginx使用AWStats日志分析的步骤及注意事项

本文介绍了在Centos7操作系统上使用Nginx和AWStats进行日志分析的步骤和注意事项。通过AWStats可以统计网站的访问量、IP地址、操作系统、浏览器等信息，并提供精确到每月、每日、每小时的数据。在部署AWStats之前需要确认服务器上已经安装了Perl环境，并进行DNS解析。 ... [详细]

蜡笔小新 2023-12-14 19:42:01
io
数据库的存储结构及其重要性

本文介绍了数据库的存储结构及其重要性，强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离，可以实现对物理存储的重新组织和数据库的迁移，而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构，并介绍了表空间的概念和作用。 ... [详细]

蜡笔小新 2023-12-14 16:00:02
io
在Windows 8上安装gvim中的插件的错误加载问题

本文讨论了在Windows 8上安装gvim中插件时出现的错误加载问题。作者将EasyMotion插件放在了正确的位置，但加载时却出现了错误。作者提供了下载链接和之前放置插件的位置，并列出了出现的错误信息。 ... [详细]

蜡笔小新 2023-12-14 14:44:00
io
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
io
Android Studio Bumblebee | 2021.1.1（大黄蜂版本使用介绍）

本文介绍了Android Studio Bumblebee | 2021.1.1（大黄蜂版本）的使用方法和相关知识，包括Gradle的介绍、设备管理器的配置、无线调试、新版本问题等内容。同时还提供了更新版本的下载地址和启动页面截图。 ... [详细]

蜡笔小新 2023-12-14 10:34:15
io
的错误消息：

ZSI.generate.Wsdl2PythonError: unsupported local simpleType restriction ... [详细]

蜡笔小新 2023-12-13 20:28:08
io
Perl的测试框架Test::Base简介及使用方法

本文介绍了Perl的测试框架Test::Base，它是一个数据驱动的测试框架，可以自动进行单元测试，省去手工编写测试程序的麻烦。与Test::More完全兼容，使用方法简单。以plural函数为例，展示了Test::Base的使用方法。 ... [详细]

蜡笔小新 2023-12-13 20:05:31
io
CF：3D City Model（小思维）问题解析和代码实现

本文通过解析CF：3D City Model问题，介绍了问题的背景和要求，并给出了相应的代码实现。该问题涉及到在一个矩形的网格上建造城市的情景，每个网格单元可以作为建筑的基础，建筑由多个立方体叠加而成。文章详细讲解了问题的解决思路，并给出了相应的代码实现供读者参考。 ... [详细]

蜡笔小新 2023-12-13 14:17:11
io
手机移动端HTML5和JavaScript如何实现视频上传和压缩视频质量？

本文讨论了在手机移动端如何使用HTML5和JavaScript实现视频上传并压缩视频质量，或者降低手机摄像头拍摄质量的问题。作者指出HTML5和JavaScript无法直接压缩视频，只能通过将视频传送到服务器端由后端进行压缩。对于控制相机拍摄质量，只有使用JAVA编写Android客户端才能实现压缩。此外，作者还解释了在交作业时使用zip格式压缩包导致CSS文件和图片音乐丢失的原因，并提供了解决方法。最后，作者还介绍了一个用于处理图片的类，可以实现图片剪裁处理和生成缩略图的功能。 ... [详细]

蜡笔小新 2023-12-12 15:58:44
io
如何查询zone下的表的信息

本文介绍了如何通过TcaplusDB知识库查询zone下的表的信息。包括请求地址、GET请求参数说明、返回参数说明等内容。通过curl方法发起请求，并提供了请求示例。 ... [详细]

蜡笔小新 2023-12-12 08:26:32
io
vue cli 3.x移除console采坑记

本文记录了在vue cli 3.x中移除console的一些采坑经验，通过使用uglifyjs-webpack-plugin插件，在vue.config.js中进行相关配置，包括设置minimizer、UglifyJsPlugin和compress等参数，最终成功移除了console。同时，还包括了一些可能出现的报错情况和解决方法。 ... [详细]

蜡笔小新 2023-12-11 21:16:05
io
Swing组件及其用法，图标接口的定义和创建方法

本文介绍了Swing组件的用法，重点讲解了图标接口的定义和创建方法。图标接口用来将图标与各种组件相关联，可以是简单的绘画或使用磁盘上的GIF格式图像。文章详细介绍了图标接口的属性和绘制方法，并给出了一个菱形图标的实现示例。该示例可以配置图标的尺寸、颜色和填充状态。 ... [详细]

蜡笔小新 2023-12-11 21:03:59
io
SpringBoot整合SpringSecurity+JWT实现单点登录

SpringBoot整合SpringSecurity+JWT实现单点登录,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2023-12-11 08:21:41
io
Wince程序内存和存储内存的分析及作用

本文分析了Wince程序内存和存储内存的分布及作用。Wince内存包括系统内存、对象存储和程序内存，其中系统内存占用了一部分SDRAM，而剩下的30M为程序内存和存储内存。对象存储是嵌入式wince操作系统中的一个新概念，常用于消费电子设备中。此外，文章还介绍了主电源和后备电池在操作系统中的作用。 ... [详细]

蜡笔小新 2023-12-10 16:21:27

diy2099_d94639

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章