开发笔记:Lucene学习总结

作者：再度重相逢jc_866 | 来源：互联网 | 2023-06-29 17:38

本文由编程笔记#小编为大家整理，主要介绍了Lucene学习总结相关的知识，希望对你有一定的参考价值。Lucene是什么？Lucene在维基百

本文由编程笔记#小编为大家整理，主要介绍了Lucene学习总结相关的知识，希望对你有一定的参考价值。

Lucene是什么？

Lucene在维基百科的定义

Lucene是一套用于全文检索和搜索的开放源代码程序库，由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程序接口，能够做全文索引和搜索，在Java开发环境里Lucene是一个成熟的免费开放源代码工具；就其本身而论，Lucene是现在并且是这几年，最受欢迎的免费Java信息检索程序库。

Lucene和solr

我想提到Lucene，不得不提solr了。

很多刚接触Lucene和Solr的人都会问这个明显的问题：我应该使用Lucene还是Solr？

答案很简单：如果你问自己这个问题，在99％的情况下，你想使用的是Solr. 形象的来说Solr和Lucene之间关系的方式是汽车及其引擎。你不能驾驶一台发动机，但可以开一辆汽车。同样，Lucene是一个程序化库，您不能按原样使用，而Solr是一个完整的应用程序，您可以立即使用它。

全文检索是什么？

全文检索在百度百科的定义

全文数据库是全文检索系统的主要构成部分。所谓全文数据库是将一个完整的信息源的全部内容转化为计算机可以识别、处理的信息单元而形成的数据集合。全文数据库不仅存储了信息，而且还有对全文数据进行词、字、段落等更深层次的编辑、加工的功能，而且所有全文数据库无一不是海量信息数据库。

全文检索首先将要查询的目标文档中的词提取出来，组成索引，通过查询索引达到搜索目标文档的目的。这种先建立索引，再对索引进行搜索的过程就叫全文检索（Full-text Search）。

全文检索（Full-Text Retrieval）是指以文本作为检索对象，找出含有指定词汇的文本。

全面、准确和快速是衡量全文检索系统的关键指标。

关于全文检索，我们要知道：

只处理文本。

不处理语义。

搜索时英文不区分大小写。

结果列表有相关度排序。

(查出的结果如果没有相关度排序，那么系统不知道我想要的结果在哪一页。我们在使用百度搜索时，一般不需要翻页，为什么？因为百度做了相关度排序：为每一条结果打一个分数，这条结果越符合搜索条件，得分就越高，叫做相关度得分，结果列表会按照这个分数由高到低排列，所以第1页的结果就是我们最想要的结果。) 在信息检索工具中，全文检索是最具通用性和实用性的。

全文检索和数据库搜索的区别

简单来说，这两者解决的问题是不一样。数据库搜索在匹配效果、速度、效率等方面都逊色于全文检索。

Lucene实现全文检索流程是什么？

技术分享图片

全文检索的流程分为两大部分：索引流程、搜索流程。

索引流程：即采集数据构建文档对象分析文档（分词）创建索引。

搜索流程：即用户通过搜索界面创建查询执行搜索，搜索器从索引库搜索渲染搜索结果

简单案例

1.Lucene实现向文档写索引并读取文档

org.apache.lucene
lucene-core
7.2.1

org.apache.lucene
lucene-queryparser
7.2.1

org.apache.lucene
lucene-analyzers-common
7.2.1

package com.xiaobai.lucene;
import java.io.File;
import java.io.FileReader;
import java.io.IOException;
import java.nio.file.Paths;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
/**
*
*TODO 索引文件
* @author Snaiclimb
* @date 2018年3月30日
* @version 1.8
*/
public class Indexer {
// 写索引实例
private IndexWriter writer;
/**
* 构造方法实例化IndexWriter
*
* @param indexDir
* @throws IOException
*/
public Indexer(String indexDir) throws IOException {
//得到索引所在目录的路径
Directory directory = FSDirectory.open(Paths.get(indexDir));
// 标准分词器
Analyzer analyzer = new StandardAnalyzer();
//保存用于创建IndexWriter的所有配置。
IndexWriterConfig iwCOnfig= new IndexWriterConfig(analyzer);
//实例化IndexWriter
writer = new IndexWriter(directory, iwConfig);
}
/**
* 关闭写索引
*
* @throws Exception
* @return 索引了多少个文件
*/
public void close() throws IOException {
writer.close();
}
public int index(String dataDir) throws Exception {
File[] files = new File(dataDir).listFiles();
for (File file : files) {
//索引指定文件
indexFile(file);
}
//返回索引了多少个文件
return writer.numDocs();
}
/**
* 索引指定文件
*
* @param f
*/
private void indexFile(File f) throws Exception {
//输出索引文件的路径
System.out.println("索引文件：" + f.getCanonicalPath());
//获取文档，文档里再设置每个字段
Document doc = getDocument(f);
//开始写入,就是把文档写进了索引文件里去了；
writer.addDocument(doc);
}
/**
* 获取文档，文档里再设置每个字段
*
* @param f
* @return document
*/
private Document getDocument(File f) throws Exception {
Document doc = new Document();
//把设置好的索引加到Document里，以便在确定被索引文档
doc.add(new TextField("contents", new FileReader(f)));
//Field.Store.YES：把文件名存索引文件里，为NO就说明不需要加到索引文件里去
doc.add(new TextField("fileName", f.getName(), Field.Store.YES));
//把完整路径存在索引文件里
doc.add(new TextField("fullPath", f.getCanonicalPath(), Field.Store.YES));
return doc;
}
public static void main(String[] args) {
//索引指定的文档路径
String indexDir = "D:\\lucene\\dataindex";
////被索引数据的路径
String dataDir = "D:\\lucene\\data";
Indexer indexer = null;
int numIndexed = 0;
//索引开始时间
long start = System.currentTimeMillis();
try {
indexer = new Indexer(indexDir);
numIndexed = indexer.index(dataDir);
} catch (Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
} finally {
try {
indexer.close();
} catch (Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
//索引结束时间
long end = System.currentTimeMillis();
System.out.println("索引：" + numIndexed + " 个文件花费了" + (end - start) + " 毫秒");
}
}

运行结果：

技术分享图片

索引目录多出的文件：

技术分享图片

2.根据索引搜索

package com.xiaobai.lucene;
import java.nio.file.Paths;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
/**
* 根据索引搜索
*TODO
* @author Snaiclimb
* @date 2018年3月25日
* @version 1.8
*/
public class Searcher {
public static void search(String indexDir, String q) throws Exception {
// 得到读取索引文件的路径
Directory dir = FSDirectory.open(Paths.get(indexDir));
// 通过dir得到的路径下的所有的文件
IndexReader reader = DirectoryReader.open(dir);
// 建立索引查询器
IndexSearcher is = new IndexSearcher(reader);
// 实例化分析器
Analyzer analyzer = new StandardAnalyzer();
// 建立查询解析器
/**
* 第一个参数是要查询的字段；第二个参数是分析器Analyzer
*/
QueryParser parser = new QueryParser("contents", analyzer);//带分词器的查询解析
// 根据传进来的p查找
Query query = parser.parse(q);//这里进行了分词，Spring Cloud被分成Spring和Cloud两个词
// 计算索引开始时间
long start = System.currentTimeMillis();
// 开始查询
/**
* 第一个参数是通过传过来的参数来查找得到的query；第二个参数是要出查询的行数
*/
TopDocs hits = is.search(query, 10);//将分词后的关键字封装为查询条件，从索引库查询
// 计算索引结束时间
long end = System.currentTimeMillis();
System.out.println("匹配 " + q + " ，总共花费" + (end - start) + "毫秒" + "查询到" + hits.totalHits + "个记录");
// 遍历hits.scoreDocs，得到scoreDoc
/**
* ScoreDoc:得分文档,即得到文档 scoreDocs:代表的是topDocs这个文档数组
*
* @throws Exception
*/
for (ScoreDoc scoreDoc : hits.scoreDocs) {
Document doc = is.doc(scoreDoc.doc);
System.out.println(doc.get("fullPath"));
}
// 关闭reader
reader.close();
}
public static void main(String[] args) {
String indexDir = "D:\\lucene\\dataindex";
//我们要搜索的内容
String q = "Spring Cloud";//目前这个分词器，无法搜索中文内容，或缺少中文分词器jar包和其他中文编码支持
try {
search(indexDir, q);
} catch (Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}

执行结果：

技术分享图片

Lucene全文检索组件分析

技术分享图片

在Lucene中，采集数据（从网站爬取或连接数据库）就是为了创建索引，创建索引需要先将采集的原始数据加工为文档，再由文档分词产生索引。文档（Document）中包含若干个Field域。

IndexWriter是索引过程的核心组件，通过IndexWriter可以创建新索引、更新索引、删除索引操作。IndexWriter需要通过Directory对索引进行存储操作。

Directory描述了索引的存储位置，底层封装了I/O操作，负责对索引进行存储。它是一个抽象类，它的子类常用的包括FSDirectory（在文件系统存储索引）、RAMDirectory（在内存存储索引）。

在对Docuemnt中的内容索引之前需要使用分词器进行分词，分词的主要过程就是分词、过滤两步。分词就是将采集到的文档内容切分成一个一个的词，具体应该说是将Document中Field的value值切分成一个一个的词。

过滤包括去除标点符号、去除停用词（的、是、a、an、the等）、大写转小写、词的形还原（复数形式转成单数形参、过去式转成现在式等）。
停用词是为节省存储空间和提高搜索效率，搜索引擎在索引页面或处理搜索请求时会自动忽略某些字或词，这些字或词即被称为Stop Words（停用词）。比如语气助词、副词、介词、连接词等，通常自身并无明确的意义，只有将其放入一个完整的句子中才有一定作用，如常见的“的”、“在”、“是”、“啊”等。
Lucene中自带了StandardAnalyzer，它可以对英文进行分词。

推荐阅读

jar
从Maven环境搭建到新建Maven项目的全流程指南

　　　　话不多说，直接入正题。　　一、配置maven环境首先安装最新版支持javaee的eclipse。我这里下载的版本是eclipse-jee-mars-2-win32-x86_64 ... [详细]

蜡笔小新 2024-10-23 14:38:29
jar
Maven进阶指南：高效管理项目外部依赖库

本文深入探讨了如何利用Maven高效管理项目中的外部依赖库。通过介绍Maven的官方依赖搜索地址（），详细讲解了依赖库的添加、版本管理和冲突解决等关键操作。此外，还提供了实用的配置示例和最佳实践，帮助开发者优化项目构建流程，提高开发效率。 ... [详细]

蜡笔小新 2024-11-09 11:17:43
export
Unable to Establish Connection with GitHub for Updating the CocoaPods/Specs Repository

在安装 iOS 开发所需的 CocoaPods 时，用户可能会遇到多种问题。其中一个常见问题是，在执行 `pod setup` 命令后，系统无法连接到 GitHub 以更新 CocoaPods/Specs 仓库。这可能是由于网络连接不稳定、GitHub 服务器暂时不可用或本地配置错误等原因导致。为解决此问题，建议检查网络连接、确保 GitHub API 限制未被触发，并验证本地配置文件是否正确。 ... [详细]

蜡笔小新 2024-11-09 11:44:58
version
解决针织难题：R语言编程技巧与常见错误分析

解决针织难题：R语言编程技巧与常见错误分析 ... [详细]

蜡笔小新 2024-11-08 15:02:19
go
计算机视觉领域介绍 | 自然语言驱动的跨模态行人重识别前沿技术综述（上篇）

本文介绍了计算机视觉领域的最新进展，特别是自然语言驱动的跨模态行人重识别技术。上篇内容详细探讨了该领域的基础理论、关键技术及当前的研究热点，为读者提供了全面的概述。 ... [详细]

蜡笔小新 2024-11-07 12:41:08
spring
音视频服务Java Web服务器部署详解与验证流程

本文详细介绍了如何在Java Web服务器上部署音视频服务，并提供了完整的验证流程。以AnyChat为例，这是一款跨平台的音视频解决方案，广泛应用于需要实时音视频交互的项目中。通过具体的部署步骤和测试方法，确保了音视频服务的稳定性和可靠性。 ... [详细]

蜡笔小新 2024-11-06 14:45:13
spring
深入解析Spring AOP框架中的代理对象生成机制

在前文探讨了Spring如何为特定的bean选择合适的通知器后，本文将进一步深入分析Spring AOP框架中代理对象的生成机制。具体而言，我们将详细解析如何通过代理技术将通知器（Advisor）中包含的通知（Advice）应用到目标bean上，以实现切面编程的核心功能。 ... [详细]

蜡笔小新 2024-11-06 10:11:10
spring
在C#中开发MP3播放器时，如何选择字典或数组来处理元数据？

在C#中开发MP3播放器时，我正在考虑如何高效存储元数据以便快速检索。选择合适的数据结构，如字典或数组，对于优化性能至关重要。字典能够提供快速的键值对查找，而数组则在连续存储和遍历方面表现优异。根据具体需求，合理选择数据结构将显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-11-05 12:43:40
version
深入解析 FCEUX 源码：两种制作 DEB 包的方法及修改现有 DEB 包的技术细节

本文深入解析了 FCEUX 源码，并详细介绍了两种制作 DEB 包的方法及其技术细节。首先，DEB 包通常由两部分组成：控制信息（位于 DEBIAN 目录）和安装内容（模拟目录）。通过解压现有的 DEB 包，可以查看其内部结构，进而理解其工作原理。具体操作包括将安装内容释放到指定目录中，以便进行进一步的修改和定制。此外，文章还探讨了如何修改现有的 DEB 包，以满足特定需求，提供了实用的步骤和技巧。 ... [详细]

蜡笔小新 2024-11-05 11:34:24
version
解决sbt构建过程中遇到的“对象apache非org软件包”错误

在使用sbt构建项目时，遇到了“对象apache不是org软件包的成员”的错误。本文详细分析了该问题的原因，并提供了有效的解决方案，包括检查依赖配置、清理缓存和更新sbt插件等步骤，帮助开发者快速解决问题。 ... [详细]

蜡笔小新 2024-10-29 16:21:59
spring
springcloud的基本服务包：Maven搭建spring boot多模块项目作为基本jar包

idea创建maven项目1.创建父模块File-New-Project-MavenGroupId:com.sky.cloudArtifactid:sky-cloud-sta ... [详细]

蜡笔小新 2024-10-21 14:44:20
spring
SpringCloud配置中心Config 配置报错 Cannot clone or checkout repository

SpringCloud-config报错Cannotcloneorcheckoutrepository1.创建仓库2.生成到本地3.SpringCloud-yml配置4.启动Clo ... [详细]

蜡笔小新 2024-10-21 12:03:12
solr
部署solr建立nutch索引

2019独角兽企业重金招聘Python工程师标准接着上篇nutch1.4的部署应用，我们来部署一下solr，solr是对lucene进行了封装的企 ... [详细]

蜡笔小新 2023-10-16 18:06:09
solr
camel_使用Camel在来自不同来源的Solr中索引数据

camelApacheSolr是建立在Lucene之上的“流行的，快速的开源企业搜索平台”。为了进行搜索(并查找结果)，通常需要从不同的源(例如内容管理 ... [详细]

蜡笔小新 2023-10-15 11:20:39
solr
Solr简介（1）

一：什么是solrSolr是apache下的一个开源项目，使用Java基于lucene开发的全文搜索服务器；Lucene是一个开放源代 ... [详细]

蜡笔小新 2023-10-12 18:15:48

再度重相逢jc_866

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章