也来谈谈Lucene倒排索引原理

作者：郭尚刚 | 来源：互联网 | 2023-08-29 11:30

Lucene是一个高性能的java全文检索工具包，它使用的是倒排文件索引结构。该结构及相应的生成算法如下：0）设有两篇文章1和2文章1的内

Lucene是一个高性能的java全文检索工具包&＃xff0c;它使用的是倒排文件索引结构。该结构及相应的生成算法如下&＃xff1a;

0&＃xff09;设有两篇文章1和2
文章1的内容为&＃xff1a;Tom lives in Guangzhou,I live in Guangzhou too.
文章2的内容为&＃xff1a;He once lived in Shanghai.

1)由于lucene是基于关键词索引和查询的&＃xff0c;首先我们要取得这两篇文章的关键词&＃xff0c;通常我们需要如下处理措施
a.我们现在有的是文章内容&＃xff0c;即一个字符串&＃xff0c;我们先要找出字符串中的所有单词&＃xff0c;即分词。英文单词由于用空格分隔&＃xff0c;比较好处理。中文单词间是连在一起的需要特殊的分词处理。
b.文章中的”in”, “once” “too”等词没有什么实际意义&＃xff0c;中文中的“的”“是”等字通常也无具体含义&＃xff0c;这些不代表概念的词可以过滤掉
c.用户通常希望查“He”时能把含“he”&＃xff0c;“HE”的文章也找出来&＃xff0c;所以所有单词需要统一大小写。
d.用户通常希望查“live”时能把含“lives”&＃xff0c;“lived”的文章也找出来&＃xff0c;所以需要把“lives”&＃xff0c;“lived”还原成“live”
e.文章中的标点符号通常不表示某种概念&＃xff0c;也可以过滤掉
在lucene中以上措施由Analyzer类完成

经过上面处理后
    文章1的所有关键词为&＃xff1a;[tom] [live] [guangzhou] [i] [live] [guangzhou]
    文章2的所有关键词为&＃xff1a;[he] [live] [shanghai]

2) 有了关键词后&＃xff0c;我们就可以建立倒排索引了。上面的对应关系是&＃xff1a;“文章号”对“文章中所有关键词”。倒排索引把这个关系倒过来&＃xff0c;变成&＃xff1a;“关键词”对“拥有该关键词的所有文章号”。文章1&＃xff0c;2经过倒排后变成
关键词   文章号
guangzhou  1
he         2
i           1
live       1,2
shanghai   2
tom         1

通常仅知道关键词在哪些文章中出现还不够&＃xff0c;我们还需要知道关键词在文章中出现次数和出现的位置&＃xff0c;通常有两种位置&＃xff1a;
a)字符位置&＃xff0c;即记录该词是文章中第几个字符&＃xff08;优点是关键词亮显时定位快&＃xff09;&＃xff1b;
b)关键词位置&＃xff0c;即记录该词是文章中第几个关键词&＃xff08;优点是节约索引空间、词组&＃xff08;phase&＃xff09;查询快&＃xff09;&＃xff0c;lucene中记录的就是这种位置。
加上“出现频率”和“出现位置”信息后&＃xff0c;我们的索引结构变为&＃xff1a;
关键词   文章号[出现频率]   出现位置
guangzhou 1[2]               3&＃xff0c;6
he        2[1]               1
i         1[1]               4
live      1[2],2[1]          2&＃xff0c;5&＃xff0c;2
shanghai  2[1]               3
tom       1[1]               1

以live 这行为例我们说明一下该结构&＃xff1a;live在文章1中出现了2次&＃xff0c;文章2中出现了一次&＃xff0c;它的出现位置为“2,5,2”这表示什么呢&＃xff1f;我们需要结合文章号和出现频率来分析&＃xff0c;文章1中出现了2次&＃xff0c;那么“2,5”就表示live在文章1中出现的两个位置&＃xff0c;文章2中出现了一次&＃xff0c;剩下的“2”就表示live是文章2中第 2个关键字。

以上就是lucene索引结构中最核心的部分。我们注意到关键字是按字符顺序排列的&＃xff08;lucene没有使用B树结构&＃xff09;&＃xff0c;因此lucene可以用二元搜索算法快速定位关键词。

实现时 lucene将上面三列分别作为词典文件&＃xff08;Term Dictionary&＃xff09;、频率文件(frequencies)、位置文件 (positions)保存。其中词典文件不仅保存有每个关键词&＃xff0c;还保留了指向频率文件和位置文件的指针&＃xff0c;通过指针可以找到该关键字的频率信息和位置信息。

    Lucene中使用了field的概念&＃xff0c;用于表达信息所在位置&＃xff08;如标题中&＃xff0c;文章中&＃xff0c;url中&＃xff09;&＃xff0c;在建索引中&＃xff0c;该field信息也记录在词典文件中&＃xff0c;每个关键词都有一个field信息(因为每个关键字一定属于一个或多个field)。

     为了减小索引文件的大小&＃xff0c;Lucene对索引还使用了压缩技术。首先&＃xff0c;对词典文件中的关键词进行了压缩&＃xff0c;关键词压缩为<前缀长度&＃xff0c;后缀>&＃xff0c;例如&＃xff1a;当前词为“阿拉伯语”&＃xff0c;上一个词为“阿拉伯”&＃xff0c;那么“阿拉伯语”压缩为<3&＃xff0c;语>。其次大量用到的是对数字的压缩&＃xff0c;数字只保存与上一个值的差值&＃xff08;这样可以减小数字的长度&＃xff0c;进而减少保存该数字需要的字节数&＃xff09;。例如当前文章号是16389&＃xff08;不压缩要用3个字节保存&＃xff09;&＃xff0c;上一文章号是16382&＃xff0c;压缩后保存7&＃xff08;只用一个字节&＃xff09;。

    下面我们可以通过对该索引的查询来解释一下为什么要建立索引。
假设要查询单词 “live”&＃xff0c;lucene先对词典二元查找、找到该词&＃xff0c;通过指向频率文件的指针读出所有文章号&＃xff0c;然后返回结果。词典通常非常小&＃xff0c;因而&＃xff0c;整个过程的时间是毫秒级的。
而用普通的顺序匹配算法&＃xff0c;不建索引&＃xff0c;而是对所有文章的内容进行字符串匹配&＃xff0c;这个过程将会相当缓慢&＃xff0c;当文章数目很大时&＃xff0c;时间往往是无法忍受的。

转:https://www.cnblogs.com/ilovexiao/archive/2007/11/06/951513.html

推荐阅读

go
推荐系统遇上深度学习(十七）详解推荐系统中的常用评测指标

原创：石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人，希望在平日的工作学习中，挖掘数据的价值， ... [详细]

蜡笔小新 2023-12-13 19:35:25
go
提升Python编程效率的十点建议

本文介绍了提升Python编程效率的十点建议，包括不使用分号、选择合适的代码编辑器、遵循Python代码规范等。这些建议可以帮助开发者节省时间，提高编程效率。同时，还提供了相关参考链接供读者深入学习。 ... [详细]

蜡笔小新 2023-12-14 21:51:04
bit
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
bit
阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾

本文介绍了阿里Treebased Deep Match(TDM)的学习笔记，同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法，再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用，并介绍了TDM的背景和优势。最后，文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]

蜡笔小新 2023-12-14 19:24:58
format
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
bit
EPICS Archiver Appliance存储waveform记录的尝试及资源需求分析

本文介绍了EPICS Archiver Appliance存储waveform记录的尝试过程，并分析了其所需的资源容量。通过解决错误提示和调整内存大小，成功存储了波形数据。然后，讨论了储存环逐束团信号的意义，以及通过记录多圈的束团信号进行参数分析的可能性。波形数据的存储需求巨大，每天需要近250G，一年需要90T。然而，储存环逐束团信号具有重要意义，可以揭示出每个束团的纵向振荡频率和模式。 ... [详细]

蜡笔小新 2023-12-14 17:43:56
default
数据库的存储结构及其重要性

本文介绍了数据库的存储结构及其重要性，强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离，可以实现对物理存储的重新组织和数据库的迁移，而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构，并介绍了表空间的概念和作用。 ... [详细]

蜡笔小新 2023-12-14 16:00:02
install
在Windows 8上安装gvim中的插件的错误加载问题

本文讨论了在Windows 8上安装gvim中插件时出现的错误加载问题。作者将EasyMotion插件放在了正确的位置，但加载时却出现了错误。作者提供了下载链接和之前放置插件的位置，并列出了出现的错误信息。 ... [详细]

蜡笔小新 2023-12-14 14:44:00
select
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
select
九度OnlineJudge之1002：Grading问题的解决方法

本文介绍了九度OnlineJudge中的1002题目“Grading”的解决方法。该题目要求设计一个公平的评分过程，将每个考题分配给3个独立的专家，如果他们的评分不一致，则需要请一位裁判做出最终决定。文章详细描述了评分规则，并给出了解决该问题的程序。 ... [详细]

蜡笔小新 2023-12-14 13:00:09
jsp
知识图谱——机器大脑中的知识库

本文介绍了知识图谱在机器大脑中的应用，以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例，说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案，如搜索关键词"Marie Curie"，会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革，不仅美国的微软必应，中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]

蜡笔小新 2023-12-14 10:06:19
jsp
PhysioNet生理信号处理（三）WFDB Toolbox for Matlab的安装和使用方法

本文介绍了PhysioNet网站提供的生理信号处理工具箱WFDB Toolbox for Matlab的安装和使用方法。通过下载并添加到Matlab路径中或直接在Matlab中输入相关内容，即可完成安装。该工具箱提供了一系列函数，可以方便地处理生理信号数据。详细的安装和使用方法可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-13 20:46:48
select
图解redis的持久化存储机制RDB和AOF的原理和优缺点

本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件，恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘，实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点，帮助读者更好地理解redis的持久化存储策略。 ... [详细]

蜡笔小新 2023-12-13 20:24:11
bit
P1651 塔 (动态规划) 的最大高度计算方法

本文介绍了P1651题目的描述和要求，以及计算能搭建的塔的最大高度的方法。通过动态规划和状压技术，将问题转化为求解差值的问题，并定义了相应的状态。最终得出了计算最大高度的解法。 ... [详细]

蜡笔小新 2023-12-13 19:52:19
bit
无损压缩算法专题——LZSS算法实现

本文介绍了基于无损压缩算法专题的LZSS算法实现。通过Python和C两种语言的代码实现了对任意文件的压缩和解压功能。详细介绍了LZSS算法的原理和实现过程，以及代码中的注释。 ... [详细]

蜡笔小新 2023-12-13 19:47:31

郭尚刚

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章