全文索引（二）lucene索引管理

作者：乖扬123_829 | 来源：互联网 | 2023-06-04 17:49

lucene是一个提供搜索的工具，并不能实现内容的抓取。所有内容的获取完全依赖于自己的应用程序去实现或者第三方的工具来做。在apachelucene下面有一个子项目，Solr可以实现从关系型数据库中

lucene是一个提供搜索的工具，并不能实现内容的抓取。所有内容的获取完全依赖于自己的应用程序去实现或者第三方的工具来做。在apache lucene下面有一个子项目，Solr可以实现从关系型数据库中获取原始数据。只要拿到原始的文本数据，lucene就可以负责建立相关的索引。

创建索引

1.Field.Store.YES (NO)存储域选项

设置为Y表示把这个域中的内容完全存储到文件中，方便进行文本的还原

设置为N表示把这个域的内容不存储到文件中，但是可以被索引，此时内容无法完全还原

2.Field.Index（索引选项）

Index.ANALYZED:进行分词和索引，适用于标题、内容等

Index.NOT_ANALYZED:进行素引，但是不进行分词，如果身份证号，姓名，lp等．适用干精确搜素

Index.ANALYZED_NOT_NORMS：进行分词但是不存储norms信息．，norms中包括了创建索引的时间和权值等信息。

Index.NOT_ANALYZED_NOT_NORMS：即不进行分词也不存储norms信息．

Index.NO:不进行索引。

/**
 * 创建索引-cfl-2015年5月26日
 */
public void createIndex(){

//用于写入索引文件的writer对象
IndexWriter writer =null;

try {

//载入writer配置
writer=new IndexWriter(directory,new IndexWriterConfig(Version.LUCENE_35,new StandardAnalyzer(Version.LUCENE_35)));
Document doc=null;

//遍历数组写入域信息
for(int i=0;i
doc=new Document();
doc.add(new Field("id",ids[i],Field.Store.YES,Field.Index.NOT_ANALYZED));
doc.add(new Field("name",names[i],Field.Store.YES,Field.Index.NOT_ANALYZED));
doc.add(new Field("mail",mails[i],Field.Store.YES,Field.Index.ANALYZED_NO_NORMS));
doc.add(new Field("content",contents[i],Field.Store.NO,Field.Index.ANALYZED_NO_NORMS));
writer.addDocument(doc);

//取得含有特定字符的数组
String strMail=mails[i].substring(mails[i].lastIndexOf("@")-1);
System.out.println(strMail);

//为指定域添加权重
if(scoreMap.containsKey(strMail)){
doc.setBoost(scoreMap.get(i));
}else{
doc.setBoost(0.5f);
}

}

System.out.println("索引创建成功！");

} catch (CorruptIndexException e) {
e.printStackTrace();
} catch (LockObtainFailedException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}finally{
closeWriter(writer);
}



}

在配置IndexWriterConfig时，需要注意的是配置指定的版本号。这里还是体现了lucene开发者成熟的设计理念的。为用户在自行选择版本的给于了充分的自由度的。

创建索引过程类似于关系型数据库中的记录、字段的创建，创建doc相当于创建一条条的数据库记录。而field的创建对应着字段的创建。

下图是索引建立后的文件

ps：当删除某个索引之后，生成.del文件

查询

1.一般查询

/**
 * 查询索引的值-cfl-2015年5月26日
 */
public void queryIndex(){
//1.创建indexReader
IndexReader reader=null;
try {
//可以有效通过reader获取文档的数量
reader=IndexReader.open(directory);
System.out.println("maxDocs:"+reader.maxDoc());
System.out.println("numDocs:"+reader.numDocs());
System.out.println("deleteDocs:"+reader.numDeletedDocs());
} catch (CorruptIndexException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}finally{
closeReader(reader);
}

}

利用IndexReader来获取索引文件目录中总文件数，索引文件数，已删除文件数信息。

2.根据关键词Term查询

/**
 * 精确查询索引根据关键字-cfl-2015年5月27日
 */
public void queryIndexByTerm(){
IndexReader reader=null;
try {
reader=IndexReader.open(directory);
IndexSearcher searcher=new IndexSearcher(reader);
TermQuery query=new TermQuery(new Term("content","bootst"));
TopDocs topDocs=searcher.search(query, 10);
for(ScoreDoc td:topDocs.scoreDocs){
System.out.println(td.toString());
System.out.println(searcher.doc(td.doc).get("name"));
}
} catch (CorruptIndexException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}finally{
closeReader(reader);
}

}

查询存在于content域中含有关键词bootst的数据。

IndexSearcher searcher=new IndexSearcher(reader);
TermQuery query=new TermQuery(new Term("content","bootst"));
TopDocs topDocs=searcher.search(query, 10);

这样的一个过程类似在关系数据库查询过程中

1.利用reader建立searcher对象

2.配置Term关键词

3.查询10条数据

删除

1.指定删除

/**
 * 删除指定索引-cfl-2015年5月26日
 */
public void deleteIndex(){
IndexWriter writer=null;
try {
writer=new IndexWriter(directory,new IndexWriterConfig(Version.LUCENE_35,new StandardAnalyzer(Version.LUCENE_35)));
//term精确查找的值
writer.deleteDocuments(new Term("id","01"));
System.out.println("已删除指定索引！" );
} catch (CorruptIndexException e) {
e.printStackTrace();
} catch (LockObtainFailedException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}finally{
closeWriter(writer);
}
}

利用还是Term关键词来删除指定域数据。

2.删除所有

/**
 * 删除所有索引-cfl-2015年5月26日
 */
public void deleteAllIndex(){
IndexWriter writer=null;
try {
writer=new IndexWriter(directory,new IndexWriterConfig(Version.LUCENE_35,new StandardAnalyzer(Version.LUCENE_35)));
writer.deleteAll();
} catch (CorruptIndexException e) {
e.printStackTrace();
} catch (LockObtainFailedException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}finally{
closeWriter(writer);
}
}

这里删除所有的，则直接利用Writer对象即可。需要注意的是这里其实类似在windows中的操作，将资源放在了回收站中并没有彻底删除。

3.强制删除（从回收站中清空）

/**
 * 强制删除-cfl-2015年5月27日
 */
public void forceDelete() {
IndexWriter writer = null;
try {
writer = new IndexWriter(directory, new IndexWriterConfig(
Version.LUCENE_35, new StandardAnalyzer(Version.LUCENE_35)));
writer.forceMergeDeletes();
} catch (CorruptIndexException e) {
e.printStackTrace();
} catch (LockObtainFailedException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} finally {
closeWriter(writer);
}
}

这里强制删除会牺牲一些机器的性能，不推荐使用。lucene在索引增多之后，会根据情况来自动整理。这里删除之后不会再恢复。

恢复

从回收站中恢复索引文件

/**
 * 恢复索引-cfl-2015年5月26日
 */
public void unDeleteIndex(){
IndexReader reader=null;

try {
//取得指定目录文件夹下,设置只读为false
reader=IndexReader.open(directory,false);
reader.undeleteAll();
System.out.println("已恢复所有删除的索引！");
} catch (CorruptIndexException e) {
e.printStackTrace();
} catch (LockObtainFailedException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}finally{
closeReader(reader);
}

}

直接利用reader自带的方法undeleteAll()即可。

设置权重

提高被搜索出的频率，类似百度做的seo。

//为指定域添加权重
if(scoreMap.containsKey(strMail)){
doc.setBoost(scoreMap.get(i));
}else{
doc.setBoost(0.5f);
}

推荐阅读

php
Yii2 Elasticsearch: 确保 GET /_nodes 请求的正确性与安全性

在安装并配置了Elasticsearch后，我在尝试通过GET /_nodes请求获取节点信息时遇到了问题，收到了错误消息。为了确保请求的正确性和安全性，我需要进一步排查配置和网络设置，以确保Elasticsearch集群能够正常响应。此外，还需要检查安全设置，如防火墙规则和认证机制，以防止未经授权的访问。 ... [详细]

蜡笔小新 2024-11-08 15:16:44
text
Spring Boot 中使用 spring-boot-starter-quartz 实现定时任务

本文介绍了如何在 Spring Boot 项目中使用 spring-boot-starter-quartz 组件实现定时任务，并将 cron 表达式存储在数据库中，以便动态调整任务执行频率。 ... [详细]

蜡笔小新 2024-11-14 18:55:09
config
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
text
详解Android连接MySQL数据库的操作流程及技术要点

在Android应用开发中，实现与MySQL数据库的连接是一项重要的技术任务。本文详细介绍了Android连接MySQL数据库的操作流程和技术要点。首先，Android平台提供了SQLiteOpenHelper类作为数据库辅助工具，用于创建或打开数据库。开发者可以通过继承并扩展该类，实现对数据库的初始化和版本管理。此外，文章还探讨了使用第三方库如Retrofit或Volley进行网络请求，以及如何通过JSON格式交换数据，确保与MySQL服务器的高效通信。 ... [详细]

蜡笔小新 2024-11-07 19:11:13
list
HBase Java API 进阶：过滤器详解与应用实例

本文详细探讨了HBase 1.2.6版本中Java API的高级应用，重点介绍了过滤器的使用方法和实际案例。首先，文章对几种常见的HBase过滤器进行了概述，包括列前缀过滤器（ColumnPrefixFilter）和时间戳过滤器（TimestampsFilter）。此外，还详细讲解了分页过滤器（PageFilter）的实现原理及其在大数据查询中的应用场景。通过具体的代码示例，读者可以更好地理解和掌握这些过滤器的使用技巧，从而提高数据处理的效率和灵活性。 ... [详细]

蜡笔小新 2024-11-05 15:08:18
php
Java 零基础入门：SQL Server 学习笔记（第21篇）

Java 零基础入门：SQL Server 学习笔记（第21篇） ... [详细]

蜡笔小新 2024-10-31 03:32:00
text
利用Jenkins与SonarQube集成实现高效代码质量检测与优化

本文探讨了通过在 Jenkins 多分支流水线中集成 SonarQube，实现高效且自动化的代码质量检测与优化方法。该方案不仅提高了开发团队的代码审查效率，还确保了软件项目的持续高质量交付。 ... [详细]

蜡笔小新 2024-10-26 13:04:29
text
分布式检索系统的简单设计

（1）XML预处理读取test.xml并修改url节点下的localhost信息，以保证预览和下载用户所需正确资源。过程如下： ... [详细]

蜡笔小新 2024-10-21 19:52:54
header
小程序的授权和登陆

小程序的授权和登陆 ... [详细]

蜡笔小新 2024-11-14 19:07:05
runtime
在OpenShift上部署基于MongoDB和Node.js的多层应用程序

本文档详细介绍了如何在OpenShift 4.x环境中部署一个包含MongoDB数据库和Node.js后端及前端的多层应用程序。通过逐步指导，读者可以轻松完成整个部署过程。 ... [详细]

蜡笔小新 2024-11-14 11:29:04
text
Android Studio SQLite 数据库增删改查简单（代码参考）

一个建表一个执行crud操作建表代码importandroid.content.Context;importandroid.database.sqlite.SQLiteDat ... [详细]

蜡笔小新 2024-11-14 11:01:49
text
C#实现文件的压缩与解压

2019独角兽企业重金招聘Python工程师标准一、准备工作1、下载ICSharpCode.SharpZipLib.dll文件2、项目中引用这个dll二、文件压缩与解压共用类 ... [详细]

蜡笔小新 2024-11-14 10:37:34
filter
浅析python实现布隆过滤器及Redis中的缓存穿透原理_python

本文带你了解了位图的实现，布隆过滤器的原理及Python中的使用，以及布隆过滤器如何应对Redis中的缓存穿透，相信你对布隆过滤 ... [详细]

蜡笔小新 2024-11-13 16:43:07
controller
Spring Boot 中配置全局文件上传路径并实现文件上传功能

本文介绍如何在 Spring Boot 项目中配置全局文件上传路径，并通过读取配置项实现文件上传功能。通过这种方式，可以更好地管理和维护文件路径。 ... [详细]

蜡笔小新 2024-11-13 11:19:38
match
Elasticsearch 嵌套调用中动态类导致数据返回异常分析与解决方案

Elasticsearch 嵌套调用中动态类导致数据返回异常分析与解决方案 ... [详细]

蜡笔小新 2024-10-26 16:29:42